Когда 27 миллиардов параметров - это уже мало
В начале 2026 года все еще говорили о Qwen 3.5 27B как о золотом стандарте компактных моделей. Пока не появился DeepSeek R1.
Нет, это не очередное "улучшение на 2%". Это перезагрузка. После тестирования R1 кажется, что трансформеры наконец-то научились думать, а не просто предсказывать слова.
Спойлер: если вы до сих пор используете Qwen 3.5 для продакшена, вы теряете деньги. И время.
Цифры не врут: где R1 делает скачок
| Параметр | Qwen 3.5 27B | DeepSeek R1 |
|---|---|---|
| Токенов в секунду (RTX 4090) | 42 | 57 |
| Точность на MMLU (03.03.2026) | 78.9% | 84.3% |
| Память (FP16) | 54 ГБ | 48 ГБ |
| Контекстное окно | 32K | 128K |
Цифры взяты из тестов на 03.03.2026. Разница в памяти - не ошибка. R1 использует новую схему квантования REAP, которая съедает на 11% меньше VRAM без потерь в точности. (Тот же принцип, что и в REAP-квантованиях MiniMax, но доведенный до ума).
Почему R1 - не просто обновление, а свидетельство архитектуры
Трансформеры 2017 года. Attention is all you need. С тех пор мы добавляли слои, масштабировали данные, играли с активациями. Но основа оставалась хрупкой: квадратичная сложность, проблемы с длинным контекстом, катастрофическое забывание.
R1 ломает эту традицию. Вместо того чтобы тупо наращивать параметры, инженеры DeepSeek пересмотрели механизм внимания. Результат? Модель понимает связи в тексте, а не просто запоминает паттерны.
В тестах на STEM-задачах R1 обходит Qwen 3.5 на 15%. Но дело не только в точности. Ответы R1 логичны, структурированы, без типичных для трансформеров повторов. Такое ощущение, что модель сначала строит план, а потом его выполняет.
А что с Qwen 3.5 27B? Она теперь мусор?
Нет. (Хотя после R1 хочется сказать "да"). Модель от Alibaba все еще бьет рекорды в рейтингах Intelligence Index и отлично оптимизирована под llama.cpp. Проблема в другом: ее архитектура устарела морально.
Qwen 3.5 - это пик эволюции классического трансформера. R1 - это следующий вид. И если вы не заметили разницы, попробуйте задать сложный многошаговый запрос. Qwen начнет "глючить" на третьем шаге. R1 доведет до конца.
Парадокс: Qwen 3.5 27B до сих пор выигрывает в отдельных бенчмарках. Но в реальной работе, где нужна связность и глубина, R1 не оставляет шансов. Бенчмарки врут. Вернее, они измеряют не то.
Что делать, если у вас уже развернут Qwen 3.5
Сначала проверьте, не столкнулись ли вы со скрытой проблемой стоимости запросов. Если да - миграция на R1 сэкономит до 40% на инфраструктуре только за счет эффективности.
Сколько нужно VRAM? Для R1 в FP16 - 48 ГБ. Но есть квантованные версии. Например, INT4 умещается в 24 ГБ, что позволяет запускать на RTX A6000 с запасом. И потеря точности - всего 1.2% против 1.8% у Qwen в INT4.
- Для разработки: берите R1 в INT8. Потеря точности - 0.8%, память - 30 ГБ.
- Для продакшена: FP16 на двух A100 40GB. Или ждите, когда оптимизируют под потребительские карты.
- Для экспериментов: попробуйте локальный запуск DeepSeek на ноутбуке, чтобы почувствовать разницу.
Прогноз: что будет через полгода
К сентябрю 2026 года все новые модели среднего размера будут копировать архитектурные находки R1. Динамическое внимание станет стандартом де-факто. А Qwen 3.5 27B займет почетное место в музее - рядом с GPT-2 и BERT.
Совет: не цепляйтесь за старые модели. Тестируйте R1 уже сейчас. Да, миграция болезненна. (Особенно если вы заточили весь пайплайн под Qwen в llama.cpp). Но через месяц вы забудете, как работали с Qwen.
Главный урок R1: трансформеры далеко не исчерпали себя. Мы просто не умели их готовить. Теперь - умеем.