Восстановление данных в AI-проектах: датасеты, RAG и MLOps

Потерянный файл — это не всегда просто файл

В обычной офисной истории потеря данных звучит так: пропал документ, не открывается таблица, сломалась флешка с фотографиями. В AI-проектах всё немного драматичнее. Один удалённый каталог может означать не просто «папка исчезла», а минус неделя разметки, минус эксперимент, минус обученный адаптер, минус база эмбеддингов для RAG или минус чекпойнт модели, который больше никто не сможет воспроизвести один в один.

Мы привыкли обсуждать нейросети через скорость инференса, размер контекста, качество датасета, квантизацию, VRAM и промпты. Но за каждым таким разговором стоит более скучная, зато критически важная вещь — хранение данных. Пока всё работает, её почти не замечают. Но стоит умереть SSD, рассыпаться RAID-массиву или случайно очистить папку с экспериментами, как весь AI-workflow внезапно превращается в расследование.

В AI-проектах данные — это не расходник. Это контекст, память, история экспериментов и часто самая дорогая часть всей системы.

Что именно можно потерять в AI-разработке

Когда говорят «потеря данных», многие представляют один конкретный файл. Но в реальном ML-проекте данные размазаны по десяткам мест. Часть лежит в репозитории, часть — на локальном диске, часть — в S3-совместимом хранилище, часть — на NAS, часть — в ноутбуке исследователя, который «временно» держит единственную рабочую версию эксперимента.

Особенно неприятно терять не финальные артефакты, а промежуточные состояния. Например, датасет после очистки, но до публикации. Или векторный индекс, который строился всю ночь. Или набор LoRA-адаптеров, где названия файлов выглядят почти одинаково, но один из них внезапно оказался тем самым удачным вариантом. Или Jupyter Notebook, в котором остались только ячейки, но исчезли исходные CSV, JSONL и логи.

В таких ситуациях проблема не только в том, что файл нужно вернуть. Проблема в том, что вместе с ним пропадает воспроизводимость. А без воспроизводимости любой AI-проект быстро превращается в набор воспоминаний: «кажется, мы запускали это с другим learning rate», «вроде бы датасет был очищен», «по-моему, там была другая версия эмбеддингов».

Почему backup не всегда спасает

Резервные копии нужны, но они не превращают систему в бессмертную. Во-первых, backup часто оказывается старым. Во-вторых, он может копировать не то, что действительно важно. В-третьих, никто не проверял восстановление, а значит, копия существует только теоретически. В-четвёртых, в AI-проектах данные меняются слишком быстро: сегодня вы пересобрали датасет, завтра построили новый индекс, послезавтра дообучили модель, а через неделю уже никто не помнит, какая версия была рабочей.

Есть и другая проблема: не всё удобно хранить в Git. Большие датасеты, бинарные чекпойнты, векторные базы, дампы, архивы с изображениями, аудио и видео быстро выходят за рамки привычной разработки. Поэтому команда начинает жить на стыке Git, DVC, облака, локальных дисков, NAS и внешних SSD. Чем больше слоёв, тем выше шанс, что где-то появится «единственная копия».

Самая опасная фраза в AI-команде: «Да это временная папка, потом перенесём». Обычно именно в таких папках и лежит что-то незаменимое.

Как выглядит сбой в реальной жизни

Сценарий первый: исследователь обучает модель локально, сохраняет чекпойнты на внешний SSD, потом диск перестаёт определяться. Сценарий второй: команда держит датасет на NAS, но после сбоя питания массив виден не полностью. Сценарий третий: кто-то случайно запускает очистку временных файлов и удаляет промежуточные результаты препроцессинга. Сценарий четвёртый: ноутбук с единственным рабочим прототипом падает, а внутри остаётся база SQLite с логами экспериментов.

В каждом случае важно не совершить типичную ошибку: не продолжать активно писать на тот же носитель. Если данные удалены или файловая система повреждена, новые записи могут перетереть фрагменты, которые ещё можно было достать. Если диск издаёт странные звуки, исчезает из системы или определяется через раз, эксперименты с повторным подключением тоже могут ухудшить ситуацию.

Здесь уже начинается не разработка, а аккуратная работа с носителем. Иногда достаточно восстановить структуру файловой системы. Иногда нужен образ диска. Иногда проблема физическая, и попытки «починить всё программой из интернета» только добавляют риска. Поэтому для критичных носителей разумнее не героически экспериментировать, а передать задачу тем, для кого восстановление данных — профильная работа.

Данные для RAG: маленькие файлы, большие последствия

Отдельная боль — RAG-системы. Кажется, что там всё просто: документы загрузили, нарезали на чанки, построили эмбеддинги, положили в векторную базу. Но в реальности RAG-пайплайн состоит из множества промежуточных слоёв. Исходные PDF, очищенный текст, чанки, метаданные, версии промптов, индексы, embedding-модель, параметры разбиения, фильтры, правила дедупликации — всё это влияет на ответ системы.

Если потерять только векторный индекс, его можно перестроить. Но если вместе с ним исчезла точная версия очищенных документов и параметры нарезки, результат уже может отличаться. Модель начнёт находить другие фрагменты, ответы станут менее стабильными, а команда будет долго искать причину в промптах, хотя настоящая проблема находится в слое данных.

Поэтому RAG-проекту нужен не только backup, но и манифест: что было загружено, когда, какой версией парсера, с какими параметрами chunk size и overlap, какой embedding-моделью и в какую базу. Такой манифест не спасёт мёртвый диск, но сильно упростит восстановление системы после аварии.

Чекпойнты моделей: почему «почти такая же версия» не подходит

С чекпойнтами похожая история. Иногда кажется, что модель можно просто обучить заново. Но любой, кто запускал долгие эксперименты, знает: «заново» почти никогда не значит «так же». Другая версия библиотеки, другой seed, другой порядок данных, чуть изменённая очистка датасета, иной драйвер GPU — и результат уже отличается.

Особенно обидно терять не финальную модель, а удачный промежуточный чекпойнт. Например, тот, который ещё не переобучился. Или тот, на котором модель лучше отвечала в конкретном домене. Или адаптер, который случайно оказался удачным из-за комбинации параметров. Такие артефакты выглядят как обычные бинарные файлы, но по сути являются зафиксированным состоянием эксперимента.

Хорошая практика — хранить рядом с чекпойнтом не только сам файл, но и карточку запуска: датасет, commit, параметры обучения, версию фреймворка, тип GPU, seed, дату, автора и краткий комментарий. Тогда даже при частичной потере структуры каталогов будет проще понять, что именно удалось вернуть.

Первая помощь при потере данных

Если важные данные исчезли, лучше действовать спокойно и скучно. Паника в таких ситуациях обычно приводит к самым дорогим ошибкам: форматированию, переустановке системы, записи новых файлов поверх старых или попыткам собрать RAID «на глаз».

Остановите запись на носитель. Не скачивайте утилиты на тот же диск, не пересобирайте проект в той же папке, не запускайте новые эксперименты поверх старой структуры.
Зафиксируйте симптомы. Что произошло, когда, после какого действия, как носитель определяется, какие сообщения показывает система.
Не форматируйте диск. Даже если операционная система предлагает «инициализировать» или «исправить» раздел, не стоит соглашаться автоматически.
Не пересобирайте RAID без схемы. Порядок дисков, размер блока и тип массива имеют значение. Ошибка на этом этапе может усложнить восстановление.
Сделайте паузу перед экспериментами. Если данные действительно важны, лучше сначала оценить риск, а уже потом выбирать способ восстановления.

Главный принцип: сначала сохранить текущее состояние, потом думать о восстановлении. Любое действие, которое меняет носитель, может уменьшить шансы вернуть нужные файлы.

Как ИИ может помочь не потерять данные

Нейросеть не воскресит физически повреждённый SSD, но может помочь построить более дисциплинированный процесс. Например, LLM можно использовать как помощника для аудита проекта: попросить её составить карту артефактов, найти «единственные копии», предложить структуру папок, чек-лист резервного копирования и правила именования экспериментов.

Вот простой промпт для такой задачи:

Проанализируй структуру моего AI-проекта и составь план защиты данных. Учти датасеты, промежуточные файлы препроцессинга, чекпойнты моделей, LoRA-адаптеры, векторные индексы, Jupyter Notebook, логи экспериментов и конфигурации. Отдельно отметь, какие файлы нельзя хранить в единственном экземпляре.

Такой промпт не заменяет DevOps и MLOps, но помогает увидеть слепые зоны. Часто уже на этапе составления списка выясняется, что важный датасет лежит только на рабочей станции, база эмбеддингов не документирована, а лучшие результаты экспериментов существуют только в скриншоте из мессенджера.

Data recovery как часть MLOps

В зрелом AI-проекте восстановление после сбоя должно быть не героическим подвигом, а частью процесса. Как минимум стоит заранее понимать, где лежат данные, какие из них критичны, как часто они меняются, сколько времени потребуется на восстановление и что произойдёт, если конкретный диск или сервер исчезнет прямо сейчас.

Для этого полезно разделять данные по уровням:

Исходные данные. То, что сложно или невозможно заново собрать: документы, изображения, аудио, выгрузки, разметка.
Промежуточные данные. Очищенные датасеты, чанки, нормализованные таблицы, подготовленные корпуса.
Производные артефакты. Векторные индексы, кеши, эмбеддинги, временные дампы.
Модельные артефакты. Чекпойнты, адаптеры, конфиги, tokenizer-файлы, результаты eval.
История экспериментов. Логи, notebook-файлы, параметры запусков, комментарии, отчёты.

Не все уровни одинаково ценны. Некоторые индексы можно перестроить, если исходники и параметры сохранены. А вот ручная разметка, уникальный датасет или редкий чекпойнт могут стоить дороже железа, на котором они лежат. Поэтому стратегия хранения должна учитывать не только размер файлов, но и стоимость повторного создания.

Носители тоже часть архитектуры

В гайдах по локальным LLM часто обсуждают GPU, RAM и скорость диска. Но надёжность носителя редко попадает в заголовок. Между тем именно диск хранит всё, ради чего собиралась система: модели, датасеты, индексы, окружения, кэши, результаты. Быстрый NVMe хорош для обучения и инференса, но если он единственное место хранения, он превращается в точку отказа.

NAS удобен для команды, но требует дисциплины: мониторинга состояния дисков, проверки массива, понятной схемы доступа и резервных копий за пределами самого NAS. Внешний SSD удобен для переноса данных, но его легко уронить, потерять или случайно отформатировать. Облако помогает с доступностью, но не отменяет версионирование и контроль удаления.

Самая надёжная схема обычно не выглядит эффектно. Это несколько копий, понятные правила, регулярная проверка восстановления, журнал изменений и отсутствие «временных» мест, о которых знает только один человек.

Итог: данные — это память AI-системы

Модель без данных быстро становится просто файлом с весами. AI-проект живёт не только в коде и промптах, но и в датасетах, логах, чекпойнтах, индексах, конфигурациях и промежуточных артефактах. Потеря одного слоя может сломать весь pipeline, даже если репозиторий на месте, а сервер включается.

Поэтому восстановление данных стоит рассматривать не как редкую аварийную услугу, а как часть культуры работы с AI-инфраструктурой. Сначала — профилактика: резервные копии, манифесты, версионирование, аккуратные профили экспериментов. Если сбой всё же случился — минимум лишних действий, фиксация состояния и осторожный выбор способа восстановления.

В мире нейросетей мы много говорим о памяти моделей. Но иногда важнее память носителя, на котором лежит всё, что помогло эту модель создать.

Когда исчезает датасет: восстановление данных в AI-проектах без паники