Почему для решения задач ARC-AGI выбрана именно модель Qwen2.5 7B?

Qwen2.5 7B выбрана из-за оптимального баланса между производительностью и требованиями к ресурсам. Модель достаточно мощна для классификации задач на примитивы, но при этом может работать на потребительском оборудовании, что делает её экономически эффективным решением для массового тестирования гипотез.

Какова точность предложенной системы на задачах ARC-AGI?

На тестовом наборе ARC-AGI v2 система демонстрирует точность до 55%. Это значительно выше, чем у подходов, основанных на прямых запросах к большим языковым моделям, которые обычно показывают результат в диапазоне 25-35%.

Каковы основные ограничения предложенного подхода?

Главное ограничение — зависимость от заранее определённого набора примитивов. Система не может распознать и обработать задачи, основанные на совершенно новой, неизвестной логике. Кроме того, ошибка на этапе классификации (роутинга) приводит к сбою всей цепочки решения.

Решаем ARC-AGI с Qwen2.5 7B: retrieval-архитектура и 55% точности

ARC-AGI — это тот бенчмарк, который сводит с ума. Визуальные головоломки, где нужно угадать паттерн по нескольким примерам. Никакого текста, только цветные пиксели. Классические LLM тут пасуют. GPT-4, Claude 3.5 — все они спотыкаются о неявную логику и отсутствие контекста.

Но что, если не пытаться решить задачу целиком одним махом? Что, если разбить её на куски, на примитивы, которые уже умеешь распознавать? Именно эту идею и реализует архитектура, построенная вокруг Qwen2.5 7B. Не как соло-игрока, а как диспетчера, роутера, который распределяет работу.

Почему именно Qwen2.5 7B, а не что-то покрупнее?

Здесь всё упирается в экономику. Запускать GPT-4 Turbo или Claude 3.7 Sonnet для тысяч попыток подбора примитивов — это сжигание бюджета в промышленных масштабах. Qwen2.5 7B, особенно в квантованном формате Q4_K_M, грузится на ноутбук с 16 ГБ ОЗУ. Она быстрая, дешёвая в инференсе, и, что важно, достаточно умная для классификации.

Ключевое слово — "достаточно". Мы не просим её генерировать гениальные решения. Мы просим её сделать одно действие: посмотреть на задачу ARC и сказать, к какому типу примитивов она относится. Это задача классификации, а не творчества.

В 2025 году вышла обновленная версия модели — Qwen2.5-7B-Instruct. Она принесла улучшения в следовании инструкциям и рассуждениях, что критично для точного анализа абстрактных паттернов. На январь 2026 года это самая актуальная версия для подобных задач в своём классе размеров.

Архитектура: не одна звезда, а целое созвездие

Система работает не на магии, а на чётком конвейере. Qwen2.5 7B — это лишь первый, хотя и ключевой, модуль.

1 Роутинг и идентификация примитива

На входе — задача из набора ARC-AGI. Это изображение, но мы преобразуем его в текстовое описание: матрица цветов, координаты объектов. Этот промпт подается в Qwen2.5 7B с четкой инструкцией: "Отнеси эту задачу к одному из следующих примитивов: object_rotation, pattern_completion, grid_filling, symmetry_detection...".

Модель выступает в роли классификатора. Её ответ — это не решение, а ярлык, ключ к следующему шагу.

💡

Здесь помогает тонкая калибровка промпта и few-shot примеры. Показываем модели 2-3 примера задач и правильные для них ярлыки примитивов. Без этого она часто "галлюцинирует" и придумывает свои категории.

2 Retrieval-система и Data ID

Получив ярлык (например, object_rotation), система обращается к заранее подготовленной базе знаний. Это не векторная база в классическом понимании, а скорее каталог решений.

Каждая известная задача ARC и её решение проиндексированы по примитивам, которые в ней используются (Data ID система). Когда Qwen2.5 говорит "object_rotation", мы ищем в каталоге все решения, которые успешно справились с вращением объектов. Берём не одно, а топ-3 наиболее релевантных по дополнительным мета-признакам (размер сетки, количество цветов).

Этот подход похож на Temple Vault, где файловая система заменяет сложные векторные базы, но здесь фокус на строгой таксономии примитивов.

3 Ассемблирование и исполнение

Дальше в дело вступает второй, более специализированный агент (иногда это тот же Qwen2.5, но с другим промптом, иногда — скриптовый решатель). Ему передается: 1) исходная задача, 2) retrieved-решения для нужного примитива.

Его работа — адаптировать найденную логику под новую задачу. Если в решении-примере вращался красный квадрат, а в новой задаче — синий треугольник, агент должен это учесть. Это уже не классификация, а логический вывод, но он происходит в сильно суженном пространстве поиска, что повышает шансы на успех.

С чем сравнивать? Альтернативы, которые проигрывают

Подход	Плюсы	Минусы для ARC-AGI	Результат (примерно)
Прямой запрос к большой модели (GPT-4o)	Мощное рассуждение	Дорого, медленно, часто переобобщает, пропускает детали	25-35%
Специализированный символьный AI	Точный, детерминированный	Негибкий, требует ручного описания всех правил для каждой задачи	Высокий на известных примитивах, ноль на новых
Наша система: Qwen2.5 7B + Retrieval	Дёшево, быстро, масштабируемо, гибридный подход	Зависит от качества базы примитивов, ошибка роутинга ломает всю цепь	до 55% на ARC-AGI v2

Цифра в 55% на тестовом наборе ARC-AGI (актуально на начало 2026) — это не прорыв в AGI, а демонстрация эффективности архитектуры. Система показывает, что комбинация лёгкого классификатора (LLM) и retrieval-механики может конкурировать с тяжёлой артиллерией за копейки.

Для сравнения, подходы вроде чистого ReAct-агента на той же модели будут метаться в пространстве возможных действий, не имея чёткого плана декомпозиции.

Кому это нужно? Три профиля пользователей

Исследователи AGI/малоресурсного AI. Если вы тестируете гипотезы об абстрактном мышлении и у вас нет бюджета на тысячи вызовов GPT-4, этот стек — ваш полигон. Вы можете экспериментировать с таксономией примитивов, промптами, retrieval-алгоритмами почти в реальном времени.
Инженеры, строящие нишевые солверы. Задачи, похожие на ARC (например, анализ специфических диаграмм, простых визуальных логических тестов), можно атаковать по той же схеме. Qwen2.5 7B разгруппирует входящие данные, а ваш доменно-специфичный решатель сделает остальное.
Энтузиасты локального AI. Всё работает на одном ноутбуке. Никаких API, никаких облаков. Это полная автономия. Если вы уже экспериментировали с полностью локальными RAG-системами, то этот кейс — следующая ступень сложности.

Главное ограничение — система не создаёт новые примитивы. Она оперирует тем, что уже есть в её каталоге. Если задача ARC использует совершенно новую, неизвестную логику, Qwen2.5 неправильно её классифицирует, и retrieval найдёт нерелевантные примеры. Это ceiling (потолок) архитектуры.

Что дальше? Куда развивать архитектуру

Точность в 55% — это не конец истории, а отправная точка. Куда можно двигаться?

Во-первых, улучшение роутера. Можно заменить одиночный вызов Qwen2.5 на консенсус ансамбля из нескольких маленьких моделей (например, добавив Liquid AI LFM2-2.6B для кросс-проверки). Или применить технику mcpx для более эффективного использования контекста при классификации.

Во-вторых, эволюция базы примитивов. Система может быть расширена для автоматического обнаружения провалов. Если задача не решена, а retrieved-примеры были не те, это сигнал. Можно помечать такие задачи для ручного разбора, выявлять новый примитив и добавлять его в каталог. Таким образом, система медленно учится.

В-третьих, оптимизация инференса. Для продакшена можно применить техники, описанные в статье про спекулятивное декодирование для Qwen, чтобы ещё больше ускорить работу роутера.

Итог прост. Qwen2.5 7B в этой истории — не главный герой, а проницательный швейцар, который знает, в какую дверь постучать. И именно эта скромная роль позволяет системе из скромных компонентов показывать результаты, которые заставляют задуматься о том, как мы вообще подходим к сложным проблемas.

Qwen2.5 7B против задач ARC-AGI: как маленькая модель ломает большие головоломки