ABC-Bench: почему AI-агенты проваливаются в настройке окружения и как Claude Sonnet 4.5 стал лучшим
Новый бенчмарк ABC-Bench показал, что AI-агенты не справляются с настройкой окружения. Claude Sonnet 4.5 стал лучшим. Результаты на 25.01.2026.
Читать →