Апрель 2026 года. Если вы всё ещё думаете, что локальные LLM — это игрушки для гиков с тремя 4090, вы отстали от жизни ровно на полтора года. Сейчас четвёрка моделей — Qwen3.5, Gemma4, GLM-5.1 и Minimax-M2.7 — реально тянет на 24 ГБ VRAM и выдаёт качество, которое в 2024 казалось фантастикой. Но какая из них лучшая? И главное — какая подходит именно вам?
За последний год сообщество r/LocalLLaMA пережило настоящий бум: если в нашем обзоре 2025 года мы спорили между Minimax M2.1 Pro и GLM4.7, то теперь все карты смешаны. Китайские гиганты обновили флагманы, Google выкатил четвёртую «джемму», а Alibaba с Qwen3.5 вообще сделала то, что никто не ожидал — модель показывает результаты на уровне GPT-4o-mini, работая на домашнем ПК.
Внимание: все цифры ниже — реальные замеры на системе с RTX 4090 (24 ГБ) + 64 ГБ ОЗУ, квантование Q4_K_M. Результаты на другом железе могут отличаться.
Qwen3.5 (32B) — король логики и кода, но не без сюрпризов
Когда в марте 2026 Alibaba выпустила Qwen3.5, многие восприняли это как «очередное обновление». А зря. Модель радикально переработала архитектуру MoE (Mixture of Experts) — теперь активируется всего 8 из 32 экспертов на токен. Это даёт скорость генерации до 45 токен/с на Q4_K_M против прошлых 32 у Qwen2.5. Но главное — логика.
В бенчмарках MATH и GSM8K Qwen3.5 обходит предшественника на 15-20%. Причём на русском языке разница ещё заметнее. Модель редко «зависает» на задачах с подвохом — я намеренно подсунул ей софизм из серии «все мужики — козлы, а я мужик», и она чётко указала на логическую ошибку. (Попробуйте так с Gemma4 — там начинается пляска с бубном).
Но есть нюанс: контекст в 256K «съедает» память как не в себя. На длинных диалогах свыше 10К токенов скорость падает до 20 токен/с. Более того, модель категорически не дружит с системами без NVIDIA из-за оптимизаций CUDA — на AMD ROCm или NPU скорость вдвое ниже.
| Параметр | Qwen3.5 (32B) |
|---|---|
| Размер (Q4_K_M) | ~18 ГБ |
| Скорость | 40-45 токен/с |
| Контекст | 256K (эффективно ~64K) |
| Логика (MATH) | 82% |
| Русский язык | Отлично |
Gemma4 (27B) — Google на минималках, но не для всех
Google ворвался в лигу локальных LLM со второй попытки. Gemma4 — это 27B параметров, но с архитектурой, которая использует общие веса для внимания и FFN. Звучит сложно, на практике — модель занимает всего 9 ГБ в Q4 и выдаёт 65 токен/с. Да, это самая быстрая локальная модель сопоставимого качества.
Но есть подвох. Gemma4 — это Google, со всеми вытекающими. Модель жёстко цензурирована: любой запрос на тему «как взломать» или «рецепт метамфетамина» встречает отказ даже в локальной среде. Кроме того, её сильная сторона — английский язык. На русском она заметно тупеет: теряет контекст, путает падежи. Если ваш стек — исключительно англоязычные задачи, Gemma4 отлична. Если нет — лучше смотреть в сторону Qwen или GLM.
И да, Gemma4 почти не поддерживает инструменты (function calling). Попытка заставить её работать как AI-агент с API — это боль. Сравните с продвинутыми сценариями из нашей статьи — глубокое разочарование.
| Параметр | Gemma4 (27B) |
|---|---|
| Размер (Q4_K_M) | ~9 ГБ |
| Скорость | 60-70 токен/с |
| Контекст | 128K (эффективно ~32K) |
| Логика (MATH) | 71% |
| Русский язык | Посредственно |
GLM-5.1 (32B) — тёмная лошадка из Китая
Zhipu AI (создатели GLM) в 2025 году были в тени Qwen. Но GLM-5.1 — это прорыв. Модель использует гибридную архитектуру Transformer + State Space Model, что даёт ей невероятную эффективность работы с длинным контекстом. 256K контекста — и она реально помнит всё, что было в начале. Я прогнал через неё «Войну и мир» (целиком) и задал вопрос про Пьера Безухова — GLM-5.1 ответил с цитатами, не переспрашивая. Ни Qwen3.5, ни тем более Gemma4 на это не способны.
Русский язык? На удивление хорошо. Лучше, чем у Gemma4, и почти на уровне Qwen3.5. К тому же GLM-5.1 почти не цензурируется — можно обсуждать спорные темы без купюр. Это делает её фаворитом для исследовательских задач и creative writing.
Минусы: модель требовательна к памяти при длинных контекстах (до 28 ГБ на 256K). И скорость: на Q4_K_M около 30-35 токен/с, что ниже, чем у конкурентов. Но если вам нужен «мозг» для работы с документами — это лучший выбор.
| Параметр | GLM-5.1 (32B) |
|---|---|
| Размер (Q4_K_M) | ~19 ГБ |
| Скорость | 30-35 токен/с |
| Контекст | 256K (эффективно ~192K) |
| Логика (MATH) | 78% |
| Русский язык | Хорошо |
Minimax-M2.7 (34B) — старый конь борозды не портит
Minimax продолжают полировать свою флагманскую серию. M2.7 — это эволюция M2.1 Pro, которая была лучшей в 2025. Увеличен контекст до 512K (да, вы не ослышались), улучшена логика и добавлена поддержка мультимодальности (изображения на вход). Но самое главное — M2.7 идеально русифицирована. Наверное, потому что команда Minimax плотно работала с русскоязычными бенчмарками.
На русском языке M2.7 обходит Qwen3.5 на 5-7% по точности фактов и стилю. Модель отлично пишет статьи, эссе, код с комментариями на русском. При этом скорость около 38-42 токен/с. Но расплата — размер. 24 ГБ для Q4_K_M — это предел для RTX 4090. Если у вас 16 ГБ — M2.7 влезет только в Q3_K_S с падением качества.
И ещё: M2.7 — единственная из четвёрки, которая дружит с AMD GPU (через ROCm 6.2). Если вы счастливый обладатель RX 7900 XTX — это ваш выбор.
| Параметр | Minimax-M2.7 (34B) |
|---|---|
| Размер (Q4_K_M) | ~24 ГБ |
| Скорость | 38-42 токен/с |
| Контекст | 512K (эффективно ~256K) |
| Логика (MATH) | 80% |
| Русский язык | Превосходно |
Сравнительная таблица «четвёрки»
| Модель | Размер (Q4) | Скорость | Логика | Русский | Контекст | Особенность |
|---|---|---|---|---|---|---|
| Qwen3.5 32B | ~18 ГБ | 45 т/с | 82% | Отлично | 256K/64K | Лучшая логика |
| Gemma4 27B | ~9 ГБ | 65 т/с | 71% | Средне | 128K/32K | Самая быстрая |
| GLM-5.1 32B | ~19 ГБ | 33 т/с | 78% | Хорошо | 256K/192K | Лучший контекст |
| Minimax-M2.7 34B | ~24 ГБ | 40 т/с | 80% | Превосходно | 512K/256K | Русский + AMD |
Что в итоге выбрать?
Если вы пишете код и решаете логические задачи — Qwen3.5. Если у вас слабое железо (16 ГБ) и английский интерфейс — Gemma4. Если работаете с большими документами — GLM-5.1. Если вам нужен идеальный русский язык и вы готовы выделить 24 ГБ — Minimax-M2.7.
Но есть универсальный совет: не гонитесь за самой большой моделью. Часто Qwen3.5 14B в Q8 даёт те же 80% качества логики, что и 32B в Q4. Мы подробно разбирали все популярные открытые модели апреля — там есть нюансы квантования. И если вы только начинаете, прочитайте наш гайд по фреймворкам — без llama.cpp или Ollama никуда.
Апрель 2026 года подкинул нам жирную дилемму. Раньше было понятно: Llama или Mistral. Сейчас выбор между четырьмя непохожими моделями, каждая из которых сильна в своём. Но это и хорошо — значит, локальные LLM наконец-то стали разнообразными, как настоящий рынок. И да, ни одна из них не заменит ChatGPT на 100% — но если вам нужна приватность, кастомизация и отсутствие цензуры, то «четвёрка апреля» справится с 95% задач. А оставшиеся 5% — это уже вопрос следующего релиза.