Программируй исследования как текст: что такое Karpathy autoresearch

Андрей Карпати выложил в репозиторий не просто код, а манифест. Autoresearch - это система, где ИИ-агенты самостоятельно планируют и проводят ML-эксперименты. Ты не пишешь скрипты. Ты пишешь намерения в markdown-файле program.md, а рои автономных агентов делают остальное: генерируют код, запускают обучение, анализируют метрики, вносят коррективы.

В 2026 году это уже не прототип. Последняя версия инструмента (v2.1 на 09.03.2026) стабильно работает с новейшими моделями вроде Llama 3.2 90B или Gemma 2 27B. Весь процесс - от формулировки гипотезы до графиков в TensorBoard - описывается на человеческом языке с вкраплениями YAML. Звучит как фантастика, пока не попробуешь.

💡

Ключевая фишка - program.md. Это файл, где ты буквально программируешь исследовательский процесс через текст. Хочешь проверить, как dropout влияет на сходимость модели на датасете GLUE? Напиши это предложением. Система разберёт задачу на подцели и делегирует их специализированным агентам.

Из чего состоит этот автономный рой

Под капотом - несколько типов агентов, каждый со своей ролью. Планировщик разбирает program.md на задачи. Исполнитель генерирует код на Python, используя доступные API (PyTorch, Hugging Face Transformers последних версий). Критик проверяет результаты, сравнивает метрики, предлагает изменения. Всё это крутится в бесконечном цикле, пока не выполнится стоп-условие.

Компонент	Задача	Технологии (2026)
Планировщик (Planner)	Анализ program.md, декомпозиция целей	GPT-4o-mini, Claude 3.7 Haiku
Исполнитель (Executor)	Генерация и запуск кода обучения	CodeLlama 70B, OpenCodeInterpreter-v2
Критик (Critic)	Валидация результатов, предложение улучшений	GPT-4o с chain-of-thought

В теории выглядит гладко. На практике агенты иногда генерируют код, который падает с ошибками CUDA out of memory. Или предлагают абсурдные гиперпараметры. Но система учится на своих ошибках - каждый провальный эксперимент попадает в базу знаний.

Чем autoresearch не похож на другие фреймворки

AutoML от Google или H2O.ai делает упор на поиск готовых архитектур. Автоэнкодеры, о которых мы писали ранее, тоже требуют ручной настройки. Autoresearch идет дальше - он автоматизирует не выбор модели, а весь научный процесс. Ты задаешь направление, а система сама решает, какие эксперименты поставить, чтобы проверить гипотезу.

Главное отличие от скриптовых пайплайнов - адаптивность. Обычный скрипт train.py выполнит ровно то, что в нем зашито. Autoresearch может изменить план на лету, если промежуточные результаты покажут, что выбранный путь тупиковый. Это ближе к тому, как работает исследователь-человек.

1 Запускаем nanochat training за 15 минут

Классический пример - дообучение маленькой языковой модели на специфичных данных. Раньше нужно было копаться в transformers, писать collate_fn, настраивать learning rate scheduler. Сейчас пишешь в program.md:

Цель: дообучить модель Qwen2.5-1.5B на диалогах из русской техподдержки.
Датасет: 10k пар вопрос-ответ в JSONL.
Метрика качества: perplexity на валидации < 12.0.
Ограничения: тренировка не более 2 часов на A100.

Система сама подберет оптимальный batch size, решит, использовать ли LoRA или полный fine-tuning, выберет scheduler. И будет итеративно улучшать результат, меняя параметры после каждой эпохи.

2 Автономные эксперименты без присмотра

Вот где скрыта настоящая мощь. Можно поставить систему на неделю с задачей "найти архитектуру с наилучшим accuracy/latency trade-off для задачи классификации изображений 224x224". Автономные агенты будут генерировать и тестировать сотни вариантов - от Vision Transformers до гибридных CNN. Каждый эксперимент документируется, код сохраняется. Утром приходишь - выбираешь лучший вариант из отчета.

С чем конкурирует, а что просто убивает

Прямых аналогов с такой степенью автономии мало. Ближайшие конкуренты:

AutoML-платформы (Google Vertex AI, Amazon SageMaker Autopilot). Дорогие, ограничены предопределенными шагами. Не умеют формулировать новые гипотезы.
Фреймворки для нейроэволюции (PyTorch + DEAP). Требуют глубокого знания алгоритмов. Autoresearch абстрагирует эволюционные методы за текстовым интерфейсом.
Скрипты на основе LangChain. Хрупкие, требуют тонкой настройки промптов. Карпати предлагает более структурированный подход через program.md.

По сути, autoresearch убивает рутинную часть исследований. Ты не тратишь дни на написание boilerplate-кода для каждого эксперимента. Но! Он не заменяет критическое мышление. Система может оптимизировать метрику, но не поймет, что датасет сдвинут, или что метрика бессмысленна. Тест Car Wash как раз показывает, как ИИ может слепо следовать инструкциям, не понимая контекста.

Кому этот инструмент сломает мозг, а кому откроет новые горизонты

Autoresearch - не для всех. Если ты только начинаешь с ML, он покажется магическим черным ящиком. Ты не поймешь, почему агент выбрал именно такой learning rate, и не научишься настраивать обучение вручную. Инструмент для тех, кто уже прошел через боль ручного тюнинга и хочет масштабироваться.

Идеальный пользователь - ML-инженер в небольшой команде, которому нужно параллельно вести несколько исследовательских направлений. Или ученый, проверяющий десятки гипотез. Система освобождает время для анализа результатов, а не для возни с кодом.

Но есть и темная сторона. Автономные агенты могут потратить тысячи GPU-часов на бессмысленные эксперименты, если ты плохо сформулировал задачу. Или сгенерировать код с уязвимостями. Как и в случае с манипулятивными ИИ, здесь нужен контроль.

Готов ли мир к автономным исследованиям?

Пока нет. Инструмент требует мощной инфраструктуры (кластер GPU, оркестрация контейнеров) и глубокого понимания, как работают LLM-агенты. Но тренд очевиден: будущее за системами, где человек задает стратегию, а ИИ выполняет тактику.

Следующий шаг - автономные рои, которые не просто обучают модели, а читают arXiv, находят пробелы в исследованиях и предлагают совершенно новые архитектуры. Когда это случится, научные публикации начнут генерироваться быстрее, чем мы успеваем их рецензировать. И тогда нам придется переосмыслить, что значит "быть исследователем".

Пока же, если хочешь почувствовать вкус этого будущего, установи autoresearch и попробуй сформулировать свою первую исследовательскую программу. Начни с простого: "сравнить три оптимизатора для ResNet-50 на CIFAR-10". Посмотри, как агенты интерпретируют задачу. И приготовься к тому, что они могут предложить решение, до которого ты бы не додумался сам.

Подписаться на канал

Автономные исследования ИИ: Karpathy autoresearch и как заставить ИИ учиться самому