Что такое Nonobench?

Nonobench - это бенчмарк для оценки способности языковых моделей решать логические головоломки Nonogram (японские кроссворды).

Какая модель показала лучший результат в Nonobench?

GPT-5.2 от OpenAI показал лучший результат - 85% точности на тестовом наборе из 50 головоломок.

Какую точность показали opensource-модели?

Лучшая opensource-модель GLM-4.7 показала 68% точности. Llama 3.2 70B - 64%, Qwen 2.5 72B - 58%.

Почему Nonogram сложен для языковых моделей?

Nonogram требует пространственного мышления, логического вывода, рабочей памяти и способности работать с десятками взаимозависимых ограничений одновременно.

Сколько стоило проведение тестов Nonobench?

Тестирование всех 23 моделей стоило более $5000, большая часть расходов пришлась на API-вызовы к коммерческим моделям.

Nonobench бенчмарк: GPT-5.2 побеждает в логических головоломках

Nonogram как лакмусовая бумажка для ИИ-мозгов

Представьте себе: 23 языковые модели, от гигантов OpenAI до opensource-тяжеловесов, сидят за одной виртуальной партой и решают японские кроссворды. Nonogram - не просто головоломка. Это тест на пространственное мышление, дедукцию и способность держать в голове десятки ограничений одновременно. Исследователи из Hugging Face и Университета Карнеги-Меллон решили, что это идеальный полигон для проверки, умеют ли современные LLM рассуждать, а не просто генерировать текстовый поток.

💡

Nonogram (японский кроссворд) - головоломка, где нужно закрашивать клетки в сетке согласно числам на краях. Каждое число обозначает группу последовательно закрашенных клеток в строке или столбце. Между группами должна быть хотя бы одна пустая клетка.

Топ-5 моделей, которые не растерялись в сетке 10x10

Результаты оказались предсказуемыми и одновременно шокирующими. GPT-5.2 с его 85% правильных решений на тестовом наборе из 50 головоломок показал всем, кто здесь главный. Но давайте посмотрим на всю таблицу:

Модель	Точность	Провайдер/Тип
GPT-5.2	85%	OpenAI (закрытая)
GPT-4o	78%	OpenAI (закрытая)
Claude 3.5 Sonnet	72%	Anthropic (закрытая)
GLM-4.7	68%	Zhipu AI (открытая)
Llama 3.2 70B	64%	Meta (открытая)

Разрыв между лидером и ближайшим преследователем - 7 процентных пунктов. В мире бенчмарков это пропасть. Особенно учитывая, что GPT-4o сам по себе не слабак. Что же такого особенного в GPT-5.2? Возможно, дело в архитектурных улучшениях или в тренировке на специфических данных. Или просто OpenAI лучше всех научился превращать токены в логические цепочки.

А opensource-модели? Они хотя бы пытались

GLM-4.7, недавно признанный лучшей opensource-моделью, показал достойные 68%. Он обошел Llama 3.2 на 4 пункта, что подтверждает его растущую репутацию. Но вот что интересно: даже лучшие открытые модели отстают от топовых закрытых конкурентов на 15-20%. Это не просто разница в точности. Это разница в качестве рассуждений.

Стоимость тестирования всех 23 моделей на Nonobench превысила $5000. Большая часть ушла на API-вызовы к коммерческим моделям. Каждая попытка решения Nonogram требовала в среднем 800-1200 токенов на модель. Умножьте на 50 головоломок и 23 модели. Математика получается невеселая.

Как они это делали? Prompt engineering на стероидах

Исследователи не просто бросали моделям raw-описание Nonogram. Они использовали сложные prompt-стратегии:

Chain-of-Thought (CoT): Модели заставляли проговаривать каждый шаг рассуждения
Self-consistency: Генерация нескольких вариантов решения и выбор наиболее согласованного
Step-by-step инструкции: Детальные указания по алгоритму решения Nonogram

Некоторые модели пытались схитрить. Генерировали псевдокод вместо решения. Или предлагали неверные алгоритмы. Самые слабые модели вообще не понимали, чего от них хотят. Они выдавали поток сознания в стиле "Nonogram - это японская головоломка, которая развивает логическое мышление..." и так далее, пока не заканчивался контекст.

Почему Nonogram сложнее, чем кажется

Казалось бы, что сложного в закрашивании клеточек? Но Nonogram требует:

Пространственного мышления: Нужно представлять, как строки и столбцы взаимодействуют
Логического вывода: Если в строке должно быть три группы по 2 клетки, а столбец уже имеет ограничения...
Рабочей памяти: Держать в голове десятки ограничений одновременно
Постепенного исключения: Начинать с очевидных клеток и двигаться к сложным

Это именно тот тип задач, где языковые модели традиционно спотыкаются. Они хороши в генерации текста по шаблону. Но в многошаговом логическом рассуждении с взаимозависимыми переменными - тут уже начинаются проблемы.

Что это значит для будущего reasoning-моделей?

Nonobench подтверждает тренд, который мы наблюдаем весь 2025 год: разрыв между reasoning-способностями коммерческих и opensource-моделей растет. Как отмечалось в итогах года, reasoning становится новым фронтом гонки вооружений.

OpenAI явно делает что-то особенное с архитектурой своих моделей. Может быть, они внедряют специализированные модули для логического вывода? Или тренируют на синтетических данных, специально сгенерированных для развития reasoning-навыков?

💡

Весь код бенчмарка, датасеты и результаты доступны в открытом репозитории на Hugging Face. Любой может повторить эксперимент или протестировать свою модель. Это делает Nonobench одним из самых прозрачных бенчмарков в индустрии.

Сюрпризы и разочарования

Gemini 2.0 Flash, который позиционируется как reasoning-специалист, показал всего 61%. Меньше, чем у GLM-4.7. Это либо говорит о переоценке возможностей Gemini, либо о том, что Nonogram ловит его на слабых местах.

Qwen 2.5 72B, который в других тестах показывает хорошие результаты, здесь получил только 58%. Видимо, его тренировка на код и математику не помогла с пространственными головоломками.

Самые маленькие модели (7B параметров) вообще не справились. Их точность колебалась между 12% и 25%. Что ожидаемо, но все равно печально.

Что дальше? Nonogram как отправная точка

Nonobench - не панацея. Это один тест среди многих. Но он хорошо показывает, какие модели умеют думать, а какие просто генерируют. В будущем исследователи планируют расширить бенчмарк:

Более сложные Nonogram (15x15, 20x20)
Другие типы логических головоломок (Судоку, Какуро)
Комбинированные задачи, где нужно решать несколько головоломок одновременно

Для тех, кто выбирает модель для своих проектов, результаты Nonobench стоит учитывать наравне с другими тестами. Особенно если ваше приложение требует логического мышления. Как мы писали в материале про выбор моделей, не все бенчмарки одинаково полезны.

Философский вопрос: а что такое "рассуждение" на самом деле?

GPT-5.2 решает Nonogram с точностью 85%. Но означает ли это, что он понимает головоломку? Или просто научился имитировать процесс решения? Разница тонкая, но важная.

Человек, решая Nonogram, строит ментальную модель сетки. Представляет возможные варианты. Исключает противоречия. LLM же просто предсказывает следующий токен в последовательности, которая выглядит как решение. Это предсказание может быть точным. Но является ли оно мышлением?

Nonobench не отвечает на этот вопрос. Но он показывает, что современные модели стали очень хороши в имитации рассуждений. Настолько хороши, что отличить имитацию от реального понимания становится все сложнее.

Что делать, если вам нужна модель для логических задач? Смотреть не только на Nonobench, но и на другие специализированные тесты. Экспериментировать с prompt-инжинирингом. Возможно, даже использовать фреймворки для прокачки reasoning. И помнить: даже лучшая модель иногда ошибается. Особенно когда клеточки начинают бунтовать.

Nonobench: когда 23 языковые модели играют в японские кроссворды, а GPT-5.2 смеется последним