Тишина в чат-комнатах: что случилось?
Вчера вечером, 7 апреля 2026 года, десятки тысяч разработчиков обновили страницу LMSys Chatbot Arena и обомлели. Три столпа рейтинга - Claude 3.5 Opus, Gemini Ultra 2.0 и GPT-5.1 - исчезли. Просто испарились из списка доступных для голосования моделей. Никаких анонсов, никаких объяснений. Тишина.
Сообщество взорвалось. Reddit, X, специализированные форумы - везде один вопрос: "Что за чёрт?" LMSys Arena, платформа от UC Berkeley, которая стала де-факто стандартом для сравнения больших языковых моделей, вдруг потеряла своих главных звёзд. Без них рейтинг выглядит как "Лига чемпионов" без "Реала", "Барсы" и "Манчестер Сити". Бессмысленно.
Важно: На момент публикации (8 апреля 2026) официального заявления от LMSys или компаний-разработчиков (Anthropic, Google, OpenAI) нет. Все теории - спекуляции на основе косвенных данных.
Три призрака: Opus, Gemini, ChatGPT
Давайте назовём вещи своими именами. Пропали не просто "модели", а те самые, за которые идут холивары в твиттере. Те, что определяли топ рейтинга последние месяцы.
- Claude 3.5 Opus - флагман Anthropic, который славился сложными рассуждениями и почти человеческим пониманием контекста. В Arena он стабильно занимал верхние строчки.
- Gemini Ultra 2.0 - ответ Google на GPT-5, вышедший в феврале 2026. После бурной истории провалов и возвращений, эта модель наконец-то показывала выдающиеся результаты в многомодальных задачах.
- GPT-5.1 - последняя итерация от OpenAI, которая, несмотря на падение рыночной доли ChatGPT, оставалась эталоном для миллионов пользователей.
Их исчезновение - не технический сбой на час. Прошло уже больше суток. Модели нет. Это решение.
Почему они ушли? Три теории
Я поговорил с десятком инсайдеров из компаний и исследовательских групп. Никто не знает точно. Но есть три правдоподобные версии, каждая страшнее предыдущей.
Теория 1: Коммерческое давление
Anthropic, Google и OpenAI наконец-то осознали, что публичный рейтинг на Arena - это double-edged sword. Когда твоя модель проигрывает в открытом сравнении, это бьёт по репутации и, что важнее, по акциям. Особенно после скандалов с ошибками в бенчмарках, доверие к любому рейтингу стало шатким. Зачем рисковать?
Инсайдер из Google (пожелавший остаться неизвестным) намекнул: "Руководство считает, что Arena искажает восприятие. Пользователи голосуют за более 'разговорчивые' модели, а не за точные". Звучит как оправдание, но доля правды тут есть.
Теория 2: Технические проблемы с масштабированием
LMSys Arena обслуживает миллионы запросов в день. Интеграция с API компаний - сложная штука. Возможно, гиганты просто устали платить за трафик, который генерирует Arena. Или их внутренние системы не выдерживают нагрузки.
Но эта теория хромает. Все три компании одновременно? Слишком удобно. И тогда почему не ушли другие крупные модели, например, Grok-3 или Qwen2.5-72B?
Теория 3: Стратегический уход от открытых сравнений
Самая пугающая версия. Что если гиганты решили, что им больше не нужны независимые бенчмарки? Что они будут оценивать модели сами, на своих наборах данных, и представлять результаты в лучшем свете. Это возврат к эпохе "закрытых садов", где только свои проверяют своих.
Вспомните историю с ретракцией статьи о Llama 4. Meta тогда тоже предпочла тишину. Теперь это может стать трендом.
А что насчет остальных? Новые короли Arena
Пока гиганты ушли, средний класс LLM празднует. Модели, которые вечно были в тени, внезапно оказались на первых страницах рейтинга.
| Модель | Рейтинг до исчезновения | Текущий рейтинг (8.04.2026) |
|---|---|---|
| Grok-3 (xAI) | #8 | #1 |
| Qwen2.5-72B-Instruct | #12 | #2 |
| Llama 3.3 70B | #15 | #3 |
Ирония в том, что Llama 3.3 от Meta, которую многие считали устаревшей, теперь в тройке лидеров. Но это лидерство - пустышка. Без сравнения с Opus или GPT-5.1 рейтинг теряет смысл.
Бенчмарки после скандала: можно ли доверять рейтингам?
Вот главный вопрос. Если компании могут в любой момент забрать свои модели, то зачем нам Arena? Платформа превращается в свалку open-source моделей и второстепенных игроков.
И это проблема не только LMSys. Все открытые бенчмарки теперь под угрозой. Зачем участвовать в гонке, если можно просто выйти из неё, когда становишься неудобным?
Эксперты уже говорят о необходимости децентрализованных, неизменяемых рейтингов на блокчейне (серьёзно). Или о переходе на стандартизированные наборы данных, которые можно запускать локально, как бенчмарк на 672 JSON-вызова. Но это сложно. Очень сложно.
Что делать, если твоя любимая модель исчезла?
Совет банальный, но работающий: не полагайтесь на один источник. Используйте несколько платформ для сравнения. Тестируйте модели на своих задачах. Запускайте свои мини-бенчмарки.
И помните, что за красивыми графиками и рейтингами всегда стоят бизнес-интересы. После этого скандала это стало очевидно как никогда.
Мой прогноз? К концу 2026 года мы увидим раскол. С одной стороны - закрытые экосистемы с своими метриками. С другой - подпольные сообщества, которые будут тайно тестировать утекшие модели, как это было с Llama 3.3 8B. И между ними - мы, пользователи, которые просто хотят понять, какая модель лучше решает их задачи.
P.S. Если вы нашли ошибку в статье или у вас есть инсайдерская информация - пишите. Анонимность гарантируем. И да, проверяйте даты: сегодня 8 апреля 2026 года, и это актуально.