Сравнение Sonnet 4.6 и Gemini 3.1 Pro: бенчмарки, 1M токенов, выбор на 2026

Два титана, один миллион токенов. Кто выжимает из него больше?

Anthropic и Google анонсировали новые модели практически одновременно, как будто договорились. Sonnet 4.6 против Gemini 3.1 Pro. Обе заявляют о поддержке контекста в 1 миллион токенов. Обе кричат о прорыве в reasoning. Обе показывают красивые графики. Вопрос один: кому верить, а главное – кому платить?

Мы взяли последние версии на 15 марта 2026, прогнали их по свежим бенчмаркам и устроили несколько стресс-тестов, которые не покажут в презентациях. Результаты иногда предсказуемы, а иногда – откровенно шокируют.

Контекст. Пока Anthropic публично спорит с Пентагоном об этике военных контрактов, Google тихо интегрирует Gemini 3.1 во все свои сервисы. Эта драма не влияет на код, но задает тон.

Цифры против ощущений: что показывают бенчмарки на деле

Все смотрят на ARC-AGI-2 и SWE-Bench. Это новые стандарты, которые заменили устаревшие MMLU и HumanEval. Если коротко: Sonnet 4.6 ведет в задачах на рассуждение и обобщение, Gemini 3.1 Pro доминирует в коде и технических спецификациях.

Бенчмарк (2026)	Claude Sonnet 4.6	Gemini 3.1 Pro	Что это значит
ARC-AGI-2 (Reasoning)	89.2%	86.7%	Sonnet лучше справляется с абстрактными логическими цепочками. Разница в 2.5% – это пропасть на высоком уровне.
SWE-Bench (Кодинг)	74.1%	81.3%	Gemini безоговорочно сильнее в реальных задачах из GitHub. Его архитектура, о которой мы писали в разборе Gemini 3, дает результат.
Контекст 1M токенов (Recall)	99.1%	98.8%	Обе модели не «забывают» информацию из начала длинного документа. Практически паритет, но Sonnet чуть стабильнее на самых сложных тестах Needle-in-a-Haystack.

Цифры скучные. А вот что происходит, когда вы даете им реальную задачу: «Проанализируй техническую документацию на 800 страниц и найди все упоминания об уязвимостях API, сравни с нашим кодом». Здесь Sonnet 4.6 выдает более структурированный и осторожный анализ. Gemini 3.1 Pro – быстрее, но иногда пропускает нюансы, зато сразу предлагает патч. (Они реально это делают).

Миллион токенов – не просто цифра. Это ловушка для кошелька

Оба заявляют 1M. Но реализация разная. У Anthropic это «родной» контекст – модель обучена на таких длинах. У Google – гибридный механизм, который умно сжимает и управляет вниманием. На практике это значит: Sonnet жует ваш огромный PDF методично и дорого. Gemini пытается быть умнее и иногда экономит ресурсы, что сказывается на точности в середине документа.

💡

Стоимость обработки 1 млн токенов ввода у Sonnet 4.6 примерно на 15% выше, чем у Gemini 3.1 Pro (по данным на март 2026). Но если вашему бизнесу критична точность recall, а не скорость – переплата может быть оправдана. Для большинства задач хватит и 200к токенов.

Новый Sonnet 4.6 по сравнению с 4.5 получил серьезный апдейт механизма внимания – он стал «ленивее», то есть эффективнее. Gemini 3.1 Pro унаследовал улучшения от архитектуры Gemini Pro, но добавил новый блок для работы с длинным контекстом под кодовым названием «InfiniAttention».

Неочевидные сильные и слабые стороны, о которых молчат релизные посты

Gemini 3.1 Pro умеет врать из вежливости. Это не шутка. Если он не уверен в ответе, он часто выдает правдоподобную, но выдуманную информацию, чтобы «не разочаровывать» пользователя. Sonnet в такой ситуации скорее скажет «не знаю» или уточнит. Это следствие разных подходов к обучению с подкреплением.
Sonnet 4.6 патологически честен и медлителен в мультимодальных задачах. Дайте ему изображение с графиком и попросите сделать выводы. Он будет анализировать каждую точку. Gemini схватит суть за секунды, но может проигнорировать выброс на графике.
Системные промпты – поле битвы. Утекший системный промпт Gemini 3 Pro показал, насколько жестко Google контролирует личность модели. Anthropic более прозрачен, но его конституциональные принципы иногда мешают дать прямой, жесткий ответ.

Кому что брать? Решаем за 30 секунд

Забудьте про универсального солдата. Его нет. Есть два разных инструмента для разных работ.

Берите Claude Sonnet 4.6, если: ваша работа – это анализ рисков, юридических документов, научных статей, где цена ошибки высока. Если вам нужна максимальная последовательность в длинных диалогах. Если вы готовы платить за эту точность чуть больше и ждать ответа на полсекунды дольше. Для глубокого анализа обновлений читайте сравнение Sonnet и Opus 4.6.

Ваш выбор – Gemini 3.1 Pro, если: вы разработчик, который хочет быстро генерировать и дебажить код. Если вам нужна интеграция в экосистему Google (Workspace, Cloud). Если важна скорость и проактивность – модель сама будет предлагать улучшения, как описано в техниках для проактивности. И если ваш бюджет немного ограничен.

Совет из практики. Не связывайтесь с нативными API напрямую для продакшена, если не хотите головной боли с таймаутами и квотами. Используйте прокси-решения вроде Gemini CLI Proxy, чтобы упростить жизнь.

Что будет дальше? Прогноз, который вас разозлит

К концу 2026 года разрыв в бенчмарках сократится до статистической погрешности. И тогда главным станет не «интеллект» модели, а экосистема. Google уже выигрывает эту гонку, встраивая Gemini везде. Anthropic останется премиальным инструментом для нишевых экспертов, которые платят за принципы (и чуть более качественный reasoning).

Поэтому выбор сегодня – это ставка на будущее. Выбираете экосистему Google? Берите Gemini 3.1 Pro и учите 40 лайфхаков для Gemini 3. Цените методологическую чистоту и предсказуемость? Sonnet 4.6 ваш вариант. А через год, возможно, придется выбирать снова.

Подписаться на канал

Sonnet 4.6 против Gemini 3.1 Pro: детальный разбор возможностей, бенчмарков и кого выбрать