ARC-AGI — это тот бенчмарк, который сводит с ума. Визуальные головоломки, где нужно угадать паттерн по нескольким примерам. Никакого текста, только цветные пиксели. Классические LLM тут пасуют. GPT-4, Claude 3.5 — все они спотыкаются о неявную логику и отсутствие контекста.
Но что, если не пытаться решить задачу целиком одним махом? Что, если разбить её на куски, на примитивы, которые уже умеешь распознавать? Именно эту идею и реализует архитектура, построенная вокруг Qwen2.5 7B. Не как соло-игрока, а как диспетчера, роутера, который распределяет работу.
Почему именно Qwen2.5 7B, а не что-то покрупнее?
Здесь всё упирается в экономику. Запускать GPT-4 Turbo или Claude 3.7 Sonnet для тысяч попыток подбора примитивов — это сжигание бюджета в промышленных масштабах. Qwen2.5 7B, особенно в квантованном формате Q4_K_M, грузится на ноутбук с 16 ГБ ОЗУ. Она быстрая, дешёвая в инференсе, и, что важно, достаточно умная для классификации.
Ключевое слово — "достаточно". Мы не просим её генерировать гениальные решения. Мы просим её сделать одно действие: посмотреть на задачу ARC и сказать, к какому типу примитивов она относится. Это задача классификации, а не творчества.
В 2025 году вышла обновленная версия модели — Qwen2.5-7B-Instruct. Она принесла улучшения в следовании инструкциям и рассуждениях, что критично для точного анализа абстрактных паттернов. На январь 2026 года это самая актуальная версия для подобных задач в своём классе размеров.
Архитектура: не одна звезда, а целое созвездие
Система работает не на магии, а на чётком конвейере. Qwen2.5 7B — это лишь первый, хотя и ключевой, модуль.
1 Роутинг и идентификация примитива
На входе — задача из набора ARC-AGI. Это изображение, но мы преобразуем его в текстовое описание: матрица цветов, координаты объектов. Этот промпт подается в Qwen2.5 7B с четкой инструкцией: "Отнеси эту задачу к одному из следующих примитивов: object_rotation, pattern_completion, grid_filling, symmetry_detection...".
Модель выступает в роли классификатора. Её ответ — это не решение, а ярлык, ключ к следующему шагу.
2 Retrieval-система и Data ID
Получив ярлык (например, object_rotation), система обращается к заранее подготовленной базе знаний. Это не векторная база в классическом понимании, а скорее каталог решений.
Каждая известная задача ARC и её решение проиндексированы по примитивам, которые в ней используются (Data ID система). Когда Qwen2.5 говорит "object_rotation", мы ищем в каталоге все решения, которые успешно справились с вращением объектов. Берём не одно, а топ-3 наиболее релевантных по дополнительным мета-признакам (размер сетки, количество цветов).
Этот подход похож на Temple Vault, где файловая система заменяет сложные векторные базы, но здесь фокус на строгой таксономии примитивов.
3 Ассемблирование и исполнение
Дальше в дело вступает второй, более специализированный агент (иногда это тот же Qwen2.5, но с другим промптом, иногда — скриптовый решатель). Ему передается: 1) исходная задача, 2) retrieved-решения для нужного примитива.
Его работа — адаптировать найденную логику под новую задачу. Если в решении-примере вращался красный квадрат, а в новой задаче — синий треугольник, агент должен это учесть. Это уже не классификация, а логический вывод, но он происходит в сильно суженном пространстве поиска, что повышает шансы на успех.
С чем сравнивать? Альтернативы, которые проигрывают
| Подход | Плюсы | Минусы для ARC-AGI | Результат (примерно) |
|---|---|---|---|
| Прямой запрос к большой модели (GPT-4o) | Мощное рассуждение | Дорого, медленно, часто переобобщает, пропускает детали | 25-35% |
| Специализированный символьный AI | Точный, детерминированный | Негибкий, требует ручного описания всех правил для каждой задачи | Высокий на известных примитивах, ноль на новых |
| Наша система: Qwen2.5 7B + Retrieval | Дёшево, быстро, масштабируемо, гибридный подход | Зависит от качества базы примитивов, ошибка роутинга ломает всю цепь | до 55% на ARC-AGI v2 |
Цифра в 55% на тестовом наборе ARC-AGI (актуально на начало 2026) — это не прорыв в AGI, а демонстрация эффективности архитектуры. Система показывает, что комбинация лёгкого классификатора (LLM) и retrieval-механики может конкурировать с тяжёлой артиллерией за копейки.
Для сравнения, подходы вроде чистого ReAct-агента на той же модели будут метаться в пространстве возможных действий, не имея чёткого плана декомпозиции.
Кому это нужно? Три профиля пользователей
- Исследователи AGI/малоресурсного AI. Если вы тестируете гипотезы об абстрактном мышлении и у вас нет бюджета на тысячи вызовов GPT-4, этот стек — ваш полигон. Вы можете экспериментировать с таксономией примитивов, промптами, retrieval-алгоритмами почти в реальном времени.
- Инженеры, строящие нишевые солверы. Задачи, похожие на ARC (например, анализ специфических диаграмм, простых визуальных логических тестов), можно атаковать по той же схеме. Qwen2.5 7B разгруппирует входящие данные, а ваш доменно-специфичный решатель сделает остальное.
- Энтузиасты локального AI. Всё работает на одном ноутбуке. Никаких API, никаких облаков. Это полная автономия. Если вы уже экспериментировали с полностью локальными RAG-системами, то этот кейс — следующая ступень сложности.
Главное ограничение — система не создаёт новые примитивы. Она оперирует тем, что уже есть в её каталоге. Если задача ARC использует совершенно новую, неизвестную логику, Qwen2.5 неправильно её классифицирует, и retrieval найдёт нерелевантные примеры. Это ceiling (потолок) архитектуры.
Что дальше? Куда развивать архитектуру
Точность в 55% — это не конец истории, а отправная точка. Куда можно двигаться?
Во-первых, улучшение роутера. Можно заменить одиночный вызов Qwen2.5 на консенсус ансамбля из нескольких маленьких моделей (например, добавив Liquid AI LFM2-2.6B для кросс-проверки). Или применить технику mcpx для более эффективного использования контекста при классификации.
Во-вторых, эволюция базы примитивов. Система может быть расширена для автоматического обнаружения провалов. Если задача не решена, а retrieved-примеры были не те, это сигнал. Можно помечать такие задачи для ручного разбора, выявлять новый примитив и добавлять его в каталог. Таким образом, система медленно учится.
В-третьих, оптимизация инференса. Для продакшена можно применить техники, описанные в статье про спекулятивное декодирование для Qwen, чтобы ещё больше ускорить работу роутера.
Итог прост. Qwen2.5 7B в этой истории — не главный герой, а проницательный швейцар, который знает, в какую дверь постучать. И именно эта скромная роль позволяет системе из скромных компонентов показывать результаты, которые заставляют задуматься о том, как мы вообще подходим к сложным проблемas.