Nonobench: когда 23 языковые модели играют в японские кроссворды, а GPT-5.2 смеется последним
Результаты Nonobench: сравнение 23 языковых моделей в решении Nonogram. GPT-5.2 лидирует с 85%, Llama 3.2 отстает. Анализ reasoning-способностей ИИ.
Читать →