Секретный ID в ответе API и шок комьюнити
Все началось с банального запроса к Cursor API. Кто-то просто хотел проверить доступные модели, но вместо стандартного списка получил странный идентификатор: claude-composer-v2-beta. Это было 25 марта 2026 года. Через час скриншот улетел на все технические форумы.
Cursor давно перестал быть просто IDE. Это полноценная платформа для AI-кодинга, где агенты соревнуются за внимание разработчика. Но такая утечка — это уровень неряшливости, который даже для стартапа кажется чрезмерным.
К вечеру 25 марта идентификатор модели исчез из ответов API. Но интернет ничего не забывает. Спецификация API Cursor версии 2026.3 до сих пор содержит следы этой модели в кэше CDN.
Composer 2: не просто новая версия, а смена парадигмы
Что такое Composer 2? Если коротко — это попытка Claude перестать быть просто чат-ботом и стать архитектором кода. Первый Composer умел писать длинные последовательности, но часто галлюцинировал на ровном месте.
Вторая версия, судя по утекшим данным, построена на гибридной архитектуре. 70% весов — это дообученная Claude-3.5-Sonnet, но остальные 30% — кастомные слои для планирования и рефакторинга. Именно эти слои и делают разницу.
CursorBench: самый жесткий бенчмарк, который вы не видели
А вот это главная находка. Вместе с ID модели в ответе API мелькнула ссылка на внутреннюю документацию CursorBench. Не путать с HumanEval или LiveCodeBench. Это совершенно другой зверь.
CursorBench не спрашивает "напиши функцию". Он дает доступ к реальному продакшен-репозиторию на GitHub с кучей легаси-кода, мигрирует базу данных, а потом просит "добави фичу без поломки деплоя". И все это под капотом у локальных моделей, которые Cursor официально не поддерживает.
- Мультимодальный ввод: скриншоты интерфейса, схемы БД, трейсы ошибок.
- Динамическая оценка: код запускается в песочнице, а не просто анализируется статически.
- Командное взаимодействие: модели приходится имитировать работу с тимлидом и продуктовым менеджером.
Компактификация в цикле RL: зачем сжимать модель, которая учится?
Самая дикая инновация в утекших данных — это "RL Compactification Loop". Обычно RLHF (обучение с подкреплением с человеческой обратной связью) идет на полной модели. Потом дистилляция. Потом сжатие.
Здесь все наоборот. Сначала берут маленькую модель (примерно 7B параметров), запускают RL-цикл, а потом "раздувают" ее до большего размера, добавляя capacity именно в те слои, которые получили высокие reward-ы. Потом снова сжимают. И так по кругу.
Звучит как алхимия? Возможно. Но если это работает, то объясняет, почему локальные модели так отстают от облачных в Cursor. Они просто не проходят через этот цикл.
На бумаге метод дает 3-кратный прирост в sample efficiency. Вместо 1000 итераций RL хватает 300. Но цена — гигантские вычислительные затраты на постоянное сжатие и раздувание. Только крупные игроки могут себе это позволить.
Что это значит для нас, обычных разработчиков?
Во-первых, Composer 2 скорее всего станет платным. И очень дорогим. Бесплатный план Cursor уже сейчас ограничен, а с такой моделью costs улетят в стратосферу.
Во-вторых, CursorBench может стать новым стандартом для оценки AI-кодеров. Но он проприетарный. Сообществу придется либо делать открытый аналог, либо смириться с тем, что все бенчмарки контролируются одной компанией.
В-третьих, RL-компактификация — это не просто research paper. Это реальный инженерный трюк, который скоро скопируют все. Через год каждая вторая модель будет проходить через подобный цикл.
Что делать прямо сейчас? Не паниковать. Протестировать Composer 2, как только он выйдет в открытый доступ (если выйдет). И следить за экономикой AI-кодинга — она меняется быстрее, чем мы успеваем обновить IDE.
Мой прогноз? К концу 2026 года мы увидим fork Cursor с открытым CursorBench-подобным бенчмарком. И комьюнити начнет обучать свои модели по тем же принципам, но без цензуры и ограничений. А пока — сохраните скриншоты утечки. Они станут историей.