Решаем ARC-AGI с Qwen2.5 7B: retrieval-архитектура и 55% точности | AiManual
AiManual Logo Ai / Manual.
20 Янв 2026 Инструмент

Qwen2.5 7B против задач ARC-AGI: как маленькая модель ломает большие головоломки

Практический гайд по созданию retrieval-системы на Qwen2.5 7B для декомпозиции сложных задач ARC-AGI на примитивы. Архитектура, калибровка, метрики на январь 20

ARC-AGI — это тот бенчмарк, который сводит с ума. Визуальные головоломки, где нужно угадать паттерн по нескольким примерам. Никакого текста, только цветные пиксели. Классические LLM тут пасуют. GPT-4, Claude 3.5 — все они спотыкаются о неявную логику и отсутствие контекста.

Но что, если не пытаться решить задачу целиком одним махом? Что, если разбить её на куски, на примитивы, которые уже умеешь распознавать? Именно эту идею и реализует архитектура, построенная вокруг Qwen2.5 7B. Не как соло-игрока, а как диспетчера, роутера, который распределяет работу.

Почему именно Qwen2.5 7B, а не что-то покрупнее?

Здесь всё упирается в экономику. Запускать GPT-4 Turbo или Claude 3.7 Sonnet для тысяч попыток подбора примитивов — это сжигание бюджета в промышленных масштабах. Qwen2.5 7B, особенно в квантованном формате Q4_K_M, грузится на ноутбук с 16 ГБ ОЗУ. Она быстрая, дешёвая в инференсе, и, что важно, достаточно умная для классификации.

Ключевое слово — "достаточно". Мы не просим её генерировать гениальные решения. Мы просим её сделать одно действие: посмотреть на задачу ARC и сказать, к какому типу примитивов она относится. Это задача классификации, а не творчества.

В 2025 году вышла обновленная версия модели — Qwen2.5-7B-Instruct. Она принесла улучшения в следовании инструкциям и рассуждениях, что критично для точного анализа абстрактных паттернов. На январь 2026 года это самая актуальная версия для подобных задач в своём классе размеров.

Архитектура: не одна звезда, а целое созвездие

Система работает не на магии, а на чётком конвейере. Qwen2.5 7B — это лишь первый, хотя и ключевой, модуль.

1 Роутинг и идентификация примитива

На входе — задача из набора ARC-AGI. Это изображение, но мы преобразуем его в текстовое описание: матрица цветов, координаты объектов. Этот промпт подается в Qwen2.5 7B с четкой инструкцией: "Отнеси эту задачу к одному из следующих примитивов: object_rotation, pattern_completion, grid_filling, symmetry_detection...".

Модель выступает в роли классификатора. Её ответ — это не решение, а ярлык, ключ к следующему шагу.

💡
Здесь помогает тонкая калибровка промпта и few-shot примеры. Показываем модели 2-3 примера задач и правильные для них ярлыки примитивов. Без этого она часто "галлюцинирует" и придумывает свои категории.

2 Retrieval-система и Data ID

Получив ярлык (например, object_rotation), система обращается к заранее подготовленной базе знаний. Это не векторная база в классическом понимании, а скорее каталог решений.

Каждая известная задача ARC и её решение проиндексированы по примитивам, которые в ней используются (Data ID система). Когда Qwen2.5 говорит "object_rotation", мы ищем в каталоге все решения, которые успешно справились с вращением объектов. Берём не одно, а топ-3 наиболее релевантных по дополнительным мета-признакам (размер сетки, количество цветов).

Этот подход похож на Temple Vault, где файловая система заменяет сложные векторные базы, но здесь фокус на строгой таксономии примитивов.

3 Ассемблирование и исполнение

Дальше в дело вступает второй, более специализированный агент (иногда это тот же Qwen2.5, но с другим промптом, иногда — скриптовый решатель). Ему передается: 1) исходная задача, 2) retrieved-решения для нужного примитива.

Его работа — адаптировать найденную логику под новую задачу. Если в решении-примере вращался красный квадрат, а в новой задаче — синий треугольник, агент должен это учесть. Это уже не классификация, а логический вывод, но он происходит в сильно суженном пространстве поиска, что повышает шансы на успех.

С чем сравнивать? Альтернативы, которые проигрывают

ПодходПлюсыМинусы для ARC-AGIРезультат (примерно)
Прямой запрос к большой модели (GPT-4o)Мощное рассуждениеДорого, медленно, часто переобобщает, пропускает детали25-35%
Специализированный символьный AIТочный, детерминированныйНегибкий, требует ручного описания всех правил для каждой задачиВысокий на известных примитивах, ноль на новых
Наша система: Qwen2.5 7B + RetrievalДёшево, быстро, масштабируемо, гибридный подходЗависит от качества базы примитивов, ошибка роутинга ломает всю цепьдо 55% на ARC-AGI v2

Цифра в 55% на тестовом наборе ARC-AGI (актуально на начало 2026) — это не прорыв в AGI, а демонстрация эффективности архитектуры. Система показывает, что комбинация лёгкого классификатора (LLM) и retrieval-механики может конкурировать с тяжёлой артиллерией за копейки.

Для сравнения, подходы вроде чистого ReAct-агента на той же модели будут метаться в пространстве возможных действий, не имея чёткого плана декомпозиции.

Кому это нужно? Три профиля пользователей

  • Исследователи AGI/малоресурсного AI. Если вы тестируете гипотезы об абстрактном мышлении и у вас нет бюджета на тысячи вызовов GPT-4, этот стек — ваш полигон. Вы можете экспериментировать с таксономией примитивов, промптами, retrieval-алгоритмами почти в реальном времени.
  • Инженеры, строящие нишевые солверы. Задачи, похожие на ARC (например, анализ специфических диаграмм, простых визуальных логических тестов), можно атаковать по той же схеме. Qwen2.5 7B разгруппирует входящие данные, а ваш доменно-специфичный решатель сделает остальное.
  • Энтузиасты локального AI. Всё работает на одном ноутбуке. Никаких API, никаких облаков. Это полная автономия. Если вы уже экспериментировали с полностью локальными RAG-системами, то этот кейс — следующая ступень сложности.

Главное ограничение — система не создаёт новые примитивы. Она оперирует тем, что уже есть в её каталоге. Если задача ARC использует совершенно новую, неизвестную логику, Qwen2.5 неправильно её классифицирует, и retrieval найдёт нерелевантные примеры. Это ceiling (потолок) архитектуры.

Что дальше? Куда развивать архитектуру

Точность в 55% — это не конец истории, а отправная точка. Куда можно двигаться?

Во-первых, улучшение роутера. Можно заменить одиночный вызов Qwen2.5 на консенсус ансамбля из нескольких маленьких моделей (например, добавив Liquid AI LFM2-2.6B для кросс-проверки). Или применить технику mcpx для более эффективного использования контекста при классификации.

Во-вторых, эволюция базы примитивов. Система может быть расширена для автоматического обнаружения провалов. Если задача не решена, а retrieved-примеры были не те, это сигнал. Можно помечать такие задачи для ручного разбора, выявлять новый примитив и добавлять его в каталог. Таким образом, система медленно учится.

В-третьих, оптимизация инференса. Для продакшена можно применить техники, описанные в статье про спекулятивное декодирование для Qwen, чтобы ещё больше ускорить работу роутера.

Итог прост. Qwen2.5 7B в этой истории — не главный герой, а проницательный швейцар, который знает, в какую дверь постучать. И именно эта скромная роль позволяет системе из скромных компонентов показывать результаты, которые заставляют задуматься о том, как мы вообще подходим к сложным проблемas.