Dr. Zero: самообучение AI-агентов без датасетов | Полный гайд 2026 | AiManual
AiManual Logo Ai / Manual.
05 Мар 2026 Гайд

Dr. Zero: как заставить AI-агентов учиться самостоятельно, без датасетов и людей

Полное руководство по фреймворку Dr. Zero от Hugging Face. Узнайте, как два AI-агента (Solver и Proposer) учат друг друга без человеческих данных. Установка, на

Забудьте про датасеты. Начинается эра агентов, которые создают знания из воздуха

Традиционное машинное обучение похоже на строительство пирамиды из песка. Вы тратите месяцы на сбор и разметку данных, а потом одна ошибка в распределении — и вся модель превращается в груду мусора. К 2026 году это стало главным тормозом. Каждый новый проект упирается в нехватку качественных данных.

Hugging Face с их исследованием "Learning to Learn from No One" предложили радикальный выход. Они взяли двух агентов, посадили их в изолированную среду и сказали: «Разбирайтесь сами». Результат — фреймворк Dr. Zero, где искусственный интеллект растёт без учителя.

Это не очередной «фреймворк-однодневка». Если вы читали мою статью «GitHub уже тошнит», то знаете — 90% таких проектов умирают. Dr. Zero — из оставшихся 10%. Он решает фундаментальную проблему, а не просто добавляет ещё один слой абстракции.

Как два бота учат друг друга? Архитектура, от которой мозг сворачивается в трубочку

Представьте двух заключённых в соседних камерах. Они не видят друг друга, но могут перестукиваться. Один (Proposer) придумывает задачи и теории. Второй (Solver) пытается их решить и даёт обратную связь. Если Solver справляется — теория подтверждается. Если нет — Proposer корректирует подход. И так по кругу, пока оба не станут гениями.

Агент Роль Аналог в мире людей Типичная модель (2026)
Proposer Генерирует гипотезы, задачи, правила игры Учёный-теоретик Qwen2.5-72B (инструктивная версия)
Solver Решает поставленные задачи, даёт оценку качеству Экспериментатор-практик Qwen2.5-32B (кодовая версия)

Цикл выглядит так:

  1. Proposer создаёт задачу (например, "напиши функцию, которая сортирует список, но без использования встроенного sort()").
  2. Solver пытается её решить, генерируя код или логику.
  3. Solver оценивает собственное решение (да, он сам себе судья) — работает ли оно, оптимально ли.
  4. Оценка идёт обратно к Proposer.
  5. Proposer анализирует фидбэк. Если решение хорошее — задача архивируется как «решённая». Если плохое — Proposer уточняет формулировку или генерирует новую, более простую задачу.

И самое безумное — для старта этого процесса не нужно никаких человеческих данных. Только начальная сидка (seed) — несколько базовых примеров или даже просто описание домена ("мы учимся программированию на Python").

Зачем это всё? Потому что будущее за автономией, а не за дата-инженерией

Пока вы читаете это, где-то в лаборатории Facebook или Google агенты на Dr. Zero уже открыли физические законы, о которых мы не знаем. Шутка. Но лишь отчасти.

  • Нулевая стоимость данных: Вам не нужно платить фрилансерам на Toloka за разметку. Агенты работают бесплатно, 24/7.
  • Исследование неизвестного: Система может найти решения, которые человек не предусмотрел — нестандартные алгоритмы, неочевидные паттерны.
  • Быстрая адаптация: Смена домена — это не новый сбор датасета, а просто новая сидка для Proposer. Хотите перейти с Python на Rust? Измените описание и запустите цикл заново.
💡
Если вы только начинаете путь в создании агентов, мой бесплатный курс даст базовое понимание. А для автоматизации рутинного ML пайплайна посмотрите на HF-skills — иногда проще автоматизировать сбор данных, чем отказываться от них совсем.

Что нужно для старта? Железо, софт и здоровый скептицизм

Dr. Zero — не игрушка для ноутбука. Proposer и Solver — это две большие языковые модели, которые работают одновременно.

Минимальные требования (на 2026 год):

  • GPU с 48+ GB памяти (например, две RTX 4090 или одна профессиональная карта). Для небольших моделей (7B) хватит и 24 GB.
  • Python 3.11+, последние версии PyTorch и библиотек от Hugging Face.
  • Доступ к моделям через Hugging Face Hub (или их локальные копии). Авторы в исследовании использовали семью Qwen2.5, что логично — это одни из лучших open-source моделей на начало 2026.

Проверьте, что у вас установлены актуальные драйверы CUDA. Если что-то устарело — будет боль.

Пошаговый запуск: от клонирования репозитория до первых «открытий»

1 Установка и подготовка окружения

Клонируем репозиторий. На момент марта 2026 он находится в организации Hugging Face.

git clone https://github.com/huggingface/dr-zero
cd dr-zero

Создаём виртуальное окружение и ставим зависимости. Обратите внимание — в требованиях указаны конкретные версии. Не меняйте их, если не хотите ночей отладки.

python -m venv venv
source venv/bin/activate  # для Windows: venv\Scripts\activate
pip install -r requirements.txt
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124  # для CUDA 12.4

2 Настройка конфигурации: кто и как будет учиться

Сердце системы — файл config.yaml. Вот его минимальная рабочая версия для обучения основам Python.

# config.yaml
models:
  proposer:
    model_id: "Qwen/Qwen2.5-72B-Instruct"
    device: "cuda:0"
    load_in_8bit: true  # если памяти мало
  solver:
    model_id: "Qwen/Qwen2.5-32B-Coder"
    device: "cuda:1"
    load_in_4bit: true

domain:
  name: "python_programming"
  seed_knowledge: |
    Ты учишься писать код на Python.
    Основные конструкции: переменные, циклы, условия, функции.
    Важно: код должен быть рабочим и эффективным.

learning:
  cycles: 1000
  max_proposal_length: 512
  max_solution_length: 1024
  evaluation_method: "self_reflection"  # как Solver оценивает себя

Не пытайтесь сразу взять самые большие модели. Начните с Qwen2.5-7B, чтобы понять динамику. Полный список доступных на 2026 год моделей можно найти в еженедельном обзоре Hugging Face.

3 Запуск цикла обучения и наблюдение за безумием

Запускаем основной скрипт. Первые 10-20 циклов будут выглядеть как бред сумасшедшего. Это нормально.

python main.py --config config.yaml --output_dir ./results

В папке results появятся логи. Самые важные файлы:

  • proposals.jsonl — все сгенерированные задачи.
  • solutions.jsonl — попытки решений.
  • knowledge_base.json — архив «подтверждённых» знаний (задачи, которые Solver решил хорошо).

Не уходите далеко от компьютера. Первый запуск может сломаться на 15-й итерации из-за ошибки в формате ответа. Вот где пригодится скептицизм.

4 Анализ результатов: находим золото в тоннах шлака

После 500 циклов откройте knowledge_base.json. Вы увидите что-то вроде:

{
  "id": 42,
  "proposal": "Напиши функцию, которая находит пересечение двух списков, сохраняя порядок первого списка.",
  "solution": "def intersect_ordered(list1, list2):\n    return [x for x in list1 if x in set(list2)]",
  "confidence_score": 0.95
}

Это уже рабочий, проверенный агентами код. Вы можете экспортировать эту базу знаний и использовать для тонкой настройки (fine-tuning) отдельной модели. По сути, вы создали датасет с нуля.

Где спрятаны грабли? Ошибки, которые совершают 95% пионеров

Ошибка 1: Слишком абстрактная сидка (seed). «Учи науку» — не подходит. «Учи решать квадратные уравнения» — уже лучше. Чем конкретнее начальное описание домена, тем быстрее агенты сфокусируются.

Ошибка 2: Использование одинаковых моделей для Proposer и Solver. Если оба агента — одна и та же модель с одними и теми же «слепыми пятнами», они будут кружить вокруг одних и тех же ошибок. Нужно разнообразие. Возьмите разные семейства (например, Proposer — GLM-4.7, Solver — Qwen2.5-Coder).

Ошибка 3: Отсутствие внешнего арбитра. В базовой конфигурации Solver сам оценивает свои решения (self_reflection). Это дешёво, но ненадёжно. Для серьёзных задач добавьте третьего агента — Checker — или простые юнит-тесты, которые будут прогонять сгенерированный код. Без этого агенты могут сойтись на решении, которое просто выглядит правдоподобно, но не работает.

Если вы столкнулись с тем, что качество решений перестало расти после 200 циклов, прочитайте мой гайд про переход от простого бота к самообучающемуся агенту. Там есть секция про плато обучения.

Частые вопросы (FAQ)

В: Можно ли использовать Dr. Zero для творческих задач — например, для генерации сюжетов?
Да, но нужно тщательно продумать оценку. Для кода есть чёткий критерий — работает/не работает. Для истории «качество» — понятие субъективное. Возможно, понадобится более сложный Checker, обученный на человеческих предпочтениях. Или посмотрите, как режиссёры используют AI для кино — там свои подходы к оценке.

В: Сколько стоит запустить такой проект в облаке?
Две инстансные GPU (например, A100 40GB) на 48 часов обойдутся примерно в $200-300 на основных платформах. Совет: начните локально с маленьких моделей, чтобы отладить пайплайн. А для полномасштабного запуска рассмотрите Vast.ai — часто выходит дешевле.

В: Полученные знания можно как-то экспортировать в обычную модель?
Абсолютно. Ваш knowledge_base.json — это готовый датасет для тонкой настройки. Можете использовать его с Unsloth для быстрого и дешёвого обучения. Получится модель, специализированная на вашем домене.

В: Есть ли готовые агенты, обученные по этой методике?
На март 2026 года Hugging Face Hub уже содержит несколько моделей с тегом dr-zero-trained. Ищите их. Это, например, специализированные кодёры или решатели логических задач. Они часто показывают лучшие результаты на нишевых бенчмарках, чем модели, обученные на человеческих данных.

Что дальше? Агенты выйдут из песочницы

Dr. Zero — это первый шаг. Следующий логичный этап — подключение агентов к реальному миру. Вместо абстрактных задач по программированию, Proposer будет генерировать цели типа «увеличь конверсию на сайте на 5%», а Solver — пытаться реализовать их через A/B-тесты, меняя код фронтенда.

Главный барьер — безопасность. Как убедиться, что автономные агенты, обучающиеся без человеческого надзора, не придут к деструктивным решениям? Это вопрос не технологический, а философский. Пока что держите своих агентов в изолированном контейнере. И следите за логами. Вдруг они начнут перестукиваться на языке, который вы не понимаете.

Попробуйте запустить хотя бы 50 циклов на малой модели. Даже если результат будет скромным, вы почувствуете вкус того, как будет выглядеть машинное обучение через пять лет. Без датасетов. Без разметчиков. Просто два любопытных разума в цифровой пустоте, которые учатся удивляться.

Подписаться на канал