Исследователь, который не спит. И не ест. И не просит зарплату
В марте 2026 года рутинный перебор гиперпараметров выглядит так же архаично, как ручная настройка карбюратора. Андрей Карпати это понял раньше всех - его autoresearch v2.3 (обновление вышло 5 марта) превращает месяцы экспериментов в автономный процесс, который работает, пока ты занимаешься чем-то осмысленным.
Суть проста до гениальности: ты пишешь, что хочешь исследовать, на человеческом языке. Система делает всё остальное - от генерации кода до анализа результатов. Звучит как хайп? Попробуем разобраться, что реально работает, а что осталось маркетингом.
Что умеет авторасёрч в 2026 году
Сравниваю с тем, что было год назад: прогресс заметный, но не революционный. Основные изменения в v2.3:
| Функция | Реализация в v2.3 | Что изменилось |
|---|---|---|
| Поддержка моделей | Llama 3.3, Gemini 2.5, Claude 3.7 Sonnet | Добавлена оптимизация под новые архитектуры |
| Фреймворки | PyTorch 3.1, JAX 0.5.8, TensorFlow 3.0 | Поддержка распределённого обучения через Ray 3.0 |
| Мониторинг | Weights & Biases, MLflow 3.2, TensorBoard 3.0 | Автоматическое логирование всех экспериментов |
| Оптимизация | Bayesian + multi-armed bandit | Снижение числа необходимых итераций на 40% |
Главная фишка - program.md. Этот файл вызывает одновременно восторг и раздражение. Восторг - потому что ты действительно пишешь исследование как рассказ. Раздражение - потому что иногда система понимает его слишком буквально.
Как это работает: магия или тщательная инженерия?
Под капотом крутятся три типа агентов, которые постоянно спорят друг с другом:
- Планировщик - разбирает твои хотелки из program.md на конкретные задачи. Использует Claude 3.7 Haiku (он дешевле и достаточно умён для этой работы)
- Исполнитель - генерирует код. Здесь ставка на CodeLlama-90B-Instruct или свежий DeepSeek-Coder-33B, если хочется сэкономить
- Критик - самый важный и самый дорогой агент. GPT-4o-mini анализирует результаты, ищет аномалии, предлагает новые направления
Цикл выглядит так: план → выполнение → критика → уточнение плана. Всё логируется, каждый шаг можно откатить. Система запоминает, что уже пробовала, и не повторяет ошибки.
Самая частая проблема 2026 года: агенты генерируют код, который падает из-за несовместимости версий библиотек. Autoresearch v2.3 пытается это фиксить через виртуальные окружения, но работает через раз.
Поставим и попробуем: инструкция для скептиков
1 Установка и настройка
Требования скромные: Python 3.11+, 32 ГБ RAM, GPU с 16+ ГБ памяти. Установка через pip (да, в 2026 году это всё ещё работает):
pip install autoresearch==2.3.0
# или если хочется bleeding edge
pip install git+https://github.com/karpathy/autoresearch@v2.3.0
Прописываешь API-ключи в .env файле. OpenAI, Anthropic, Google - кому что нравится. Можно миксовать: планировщик на Claude, исполнитель на CodeLlama, критик на GPT-4o.
2 Пишем первый program.md
Вот как выглядит минимальный рабочий пример:
# Исследование: влияние learning rate на сходимость BERT
Цель: найти оптимальный learning rate для fine-tuning BERT-base на датасете SST-2.
Конфигурация:
- Модель: bert-base-uncased
- Датасет: GLUE SST-2
- Бюджет: 20 экспериментов
- Метрика: accuracy на валидации
Гиперпараметры для перебора:
- learning_rate: от 1e-5 до 5e-4, логарифмическая шкала
- batch_size: [16, 32, 64]
- num_epochs: фиксировано 3
Стоп-условия:
- accuracy > 0.92
- или закончились эксперименты
- или нет улучшений 5 запусков подряд
Система прочитает это, разложит на задачи, начнёт генерировать код тренировки. Первые несколько итераций будут примитивными - агенты изучают пространство параметров. Потом станет умнее.
3 Запуск и мониторинг
autoresearch run program.md --output experiments/bert_lr_study
В папке experiments/ появятся подпапки для каждого запуска, логи, чекпоинты моделей. Можно подключить Weights & Biases для красивого дашборда. Или просто смотреть в терминал - там будет поток мыслей агентов.
С чем конкурирует авторасёрч в 2026?
Рынок автоматизации ML за два года разросся. Вот основные игроки:
| Инструмент | Сильные стороны | Слабые стороны | Когда выбирать |
|---|---|---|---|
| Autoresearch v2.3 | Гибкость, автономность, интеграция с любыми моделями | Стоимость API-вызовов, требуется настройка | Исследовательские проекты, прототипирование |
| DeepResearch от Яндекса | Готовые пайплайны, интеграция с Yandex Cloud | Закрытая система, только их модели | Корпоративное использование |
| Optuna 4.0 | Стабильность, сообщество, бесплатно | Нужно писать код тренировки самому | Производственные задачи |
| LLM-Benchmark Agent | Специализация на LLM, метрики качества | Узкая направленность | Сравнение языковых моделей |
Autoresearch выигрывает в сценариях, где нужно быстро протестировать странную идею. Когда неясно даже, какие гиперпараметры перебирать - просто описываешь проблему, и система предлагает варианты.
Кому это нужно (а кому лучше обойти стороной)
Бери autoresearch, если:
- Ты исследователь в академии или R&D-отделе - экономия времени на 60-70%
- Работаешь с экспериментальными архитектурами, для которых нет готовых решений
- Хочешь автоматизировать рутинные A/B тесты моделей
- Готов мириться с occasional nonsense от ИИ-агентов
Не трать время, если:
- У тебя стабильный пайплайн, который меняется раз в год - Optuna хватит
- Бюджет ограничен - API-вызовы к GPT-4o на 1000 экспериментов стоят как неплохой GPU
- Нужны гарантии и SLA - это всё ещё research-grade инструмент
- Не хочешь разбираться с ошибками совместимости библиотек
Личный опыт: после месяца использования autoresearch для настройки трансформеров под специфичные датасеты, я стал спать на 2 часа больше. Но иногда просыпался от желания задушить очередного агента, который решил, что learning_rate=10 - отличная идея.
Что будет дальше (спойлер: меньше магии, больше инженерии)
Карпати в последнем интервью говорил, что v3.0 будет сосредоточена на предсказании сбоев. Сейчас 30% времени система тратит на эксперименты, которые заведомо провалятся. В следующих версиях агенты научатся это предсказывать по первым итерациям.
Ещё одна тенденция 2026 года - уход от чистого prompt engineering к гибридным системам. Autoresearch уже позволяет подмешивать жёсткие правила в program.md. «Если accuracy падает два раза подряд - увеличивай batch_size» - такая инструкция работает надёжнее, чем надежда на здравый смысл ИИ.
Главный урок последних двух лет: автономные системы не заменяют экспертизу. Они её усиливают. Autoresearch - это не волшебная палочка, а очень умный ассистент, который всё ещё нуждается в надзоре.
Но когда видишь, как в 3 часа ночи система самостоятельно находит баг в твоём дата-лоадере и перезапускает эксперимент - понимаешь, что будущее уже здесь. Оно просто немного глючное.