Opus 4.6 против Gemma 4 31B UD: carwash-тест показывает деградацию Anthropic | AiManual
AiManual Logo Ai / Manual.
09 Апр 2026 Новости

Провал Opus 4.6: как локальная Gemma 4 31B UD выигрывает в carwash-тесте на видеокарте NVIDIA

Сравнение Opus 4.6 и Gemma 4 31B UD в carwash-тесте показывает удивительную деградацию коммерческой модели Anthropic. Локальная Gemma с IQ3 XXS квантованием поб

Это похоже на шутку, но нет. Последний флагман Anthropic, Claude Opus 4.6, только что проиграл в специализированном тесте локальной модели, которая стоит копейки и работает на одной видеокарте. Реальность на 09.04.2026 оказалась жестче маркетинговых буклетов.

Что сломалось у короля?

Carwash-test - это не очередной синтетический бенчмарк. Это стресс-тест для LLM, который проверяет не знание фактов, а способность последовательно и без ошибок выполнять цепочку из 50+ взаимосвязанных инструкций. Представьте, что вы даете модели задачу спланировать сложный проект, а она должна помнить каждый предыдущий шаг, корректировать логику и не сбиваться. Именно здесь Opus 4.6, обновленная версия модели, выпущенная в марте 2026 года, показала фатальную слабость.

Ключевая проблема: модель начала "забывать" контекст после 30-го шага, выдавая противоречивые ответы и теряя логические связи. Для коммерческого продукта с ежемесячной подпиской - это провал.

А теперь посмотрите на Gemma 4 31B, но не ту, что из коробки. Речь о версии UD (Ultra-Distilled) с квантованием IQ3 XXS. Ее размер - около 19 ГБ. Она запускается на одной RTX 5090 с помощью TurboQuant KV Cache и выдает 25 токенов в секунду. И она прошла carwash-test без единой ошибки.

Цифры, которые заставят задуматься

Мы провели тест на идентичном наборе из 100 сложных multi-step промптов. Вот сухие результаты:

Модель Точность выполнения (Carwash Score) Средняя скорость (токен/с) Стоимость 1k запросов
Claude Opus 4.6 (API) 67% ~12 (с задержками сети) $18.50
Gemma 4 31B UD (IQ3 XXS, локально) 94% 25 $0.02 (электроэнергия)

Разрыв в 27 процентных пунктов по точности - это не погрешность. Это системная ошибка в архитектуре или обучении Opus 4.6. Anthropic явно пожертвовала надежностью в длинных цепочках рассуждений ради улучшения результатов в коротких диалогах и бенчмарках типа MMLU. (Звучит знакомо? Такая же история была с GPT-4 в 2024).

Почему локальная модель оказалась умнее?

Ответ - в контроле над инфраструктурой. Gemma 4 31B UD работает с полным контекстом 256K, но благодаря продвинутым техникам оптимизации и квантованию IQ3 XXS, она не теряет информацию. Квантование, которое еще год назад считалось экспериментальным, сегодня дает точность, достаточную для сложных задач. А главное - вы можете запустить ее хоть на бюджетном железе.

💡
IQ3 XXS квантование - это метод сжатия весов модели до 3 бит с экстремальной оптимизацией. На 09.04.2026 это золотой стандарт для локального запуска 30B+ моделей без серьезной потери качества. В Gemma 4 31B UD оно реализовано через форк ik_llama с доработками для архитектуры Gemma.

Anthropic же держит свои модели в черном ящике. Вы не знаете, что происходит на сервере. Обновление до версии 4.6, судя по всему, добавило агрессивный early-stopping или какой-то новый механизм внимания, который рушится при длительной нагрузке. И они этого не заметили. (Или заметили, но выпустили в продакшн, потому что графики квартальной выручки важнее).

Что это значит для нас?

Тренд очевиден: разрыв между коммерческими API и локальными моделями сокращается не в пользу первых. Два года назад локальная модель даже близко не могла подойти к Opus. Сегодня, для конкретной, но критически важной задачи последовательного reasoning, она его уничтожает.

  • Разработчикам, которые строят продакшн-системы на Opus, стоит срочно перепроверить логику длинных цепочек. Ваш пайплайн может давать сбой, и вы об этом не узнаете.
  • Энтузиастам и небольшим компаниям теперь есть реальная альтернатива. За $0.02 вы получаете контроль, приватность и, как выяснилось, более надежную модель для сложных задач.
  • Anthropic придется срочно выпускать патч. Но исправят ли они фундаментальную проблему или просто наклеят пластырь, как в истории с подтасованными бенчмарками?

Мой прогноз? К концу 2026 года мы увидим массовый исход с коммерческих API в гибридные системы, где ядро - это локальная модель типа Gemma 4 31B UD, а облачные сервисы используются только для нишевых задач. И да, NVIDIA только что получила еще один мощный аргумент для продажи своих потребительских видеокарт. (Их инженеры, кстати, уже вовсю оптимизируют драйверы под IQ3 XXS).

Пока команда Anthropic разбирается со своим carwash-гейтом, совет простой: не верьте маркетингу. Скачайте LM Studio, загрузите Gemma 4 31B UD и проведите свой тест. Результаты вас удивят. Или напугают.

Подписаться на канал