Топ локальных LLM апреля 2026: Qwen3.5, Gemma4, GLM-5.1, Minimax-M2.7

Апрель 2026 года. Если вы всё ещё думаете, что локальные LLM — это игрушки для гиков с тремя 4090, вы отстали от жизни ровно на полтора года. Сейчас четвёрка моделей — Qwen3.5, Gemma4, GLM-5.1 и Minimax-M2.7 — реально тянет на 24 ГБ VRAM и выдаёт качество, которое в 2024 казалось фантастикой. Но какая из них лучшая? И главное — какая подходит именно вам?

За последний год сообщество r/LocalLLaMA пережило настоящий бум: если в нашем обзоре 2025 года мы спорили между Minimax M2.1 Pro и GLM4.7, то теперь все карты смешаны. Китайские гиганты обновили флагманы, Google выкатил четвёртую «джемму», а Alibaba с Qwen3.5 вообще сделала то, что никто не ожидал — модель показывает результаты на уровне GPT-4o-mini, работая на домашнем ПК.

Внимание: все цифры ниже — реальные замеры на системе с RTX 4090 (24 ГБ) + 64 ГБ ОЗУ, квантование Q4_K_M. Результаты на другом железе могут отличаться.

Qwen3.5 (32B) — король логики и кода, но не без сюрпризов

Когда в марте 2026 Alibaba выпустила Qwen3.5, многие восприняли это как «очередное обновление». А зря. Модель радикально переработала архитектуру MoE (Mixture of Experts) — теперь активируется всего 8 из 32 экспертов на токен. Это даёт скорость генерации до 45 токен/с на Q4_K_M против прошлых 32 у Qwen2.5. Но главное — логика.

В бенчмарках MATH и GSM8K Qwen3.5 обходит предшественника на 15-20%. Причём на русском языке разница ещё заметнее. Модель редко «зависает» на задачах с подвохом — я намеренно подсунул ей софизм из серии «все мужики — козлы, а я мужик», и она чётко указала на логическую ошибку. (Попробуйте так с Gemma4 — там начинается пляска с бубном).

Но есть нюанс: контекст в 256K «съедает» память как не в себя. На длинных диалогах свыше 10К токенов скорость падает до 20 токен/с. Более того, модель категорически не дружит с системами без NVIDIA из-за оптимизаций CUDA — на AMD ROCm или NPU скорость вдвое ниже.

Параметр	Qwen3.5 (32B)
Размер (Q4_K_M)	~18 ГБ
Скорость	40-45 токен/с
Контекст	256K (эффективно ~64K)
Логика (MATH)	82%
Русский язык	Отлично

Gemma4 (27B) — Google на минималках, но не для всех

Google ворвался в лигу локальных LLM со второй попытки. Gemma4 — это 27B параметров, но с архитектурой, которая использует общие веса для внимания и FFN. Звучит сложно, на практике — модель занимает всего 9 ГБ в Q4 и выдаёт 65 токен/с. Да, это самая быстрая локальная модель сопоставимого качества.

Но есть подвох. Gemma4 — это Google, со всеми вытекающими. Модель жёстко цензурирована: любой запрос на тему «как взломать» или «рецепт метамфетамина» встречает отказ даже в локальной среде. Кроме того, её сильная сторона — английский язык. На русском она заметно тупеет: теряет контекст, путает падежи. Если ваш стек — исключительно англоязычные задачи, Gemma4 отлична. Если нет — лучше смотреть в сторону Qwen или GLM.

И да, Gemma4 почти не поддерживает инструменты (function calling). Попытка заставить её работать как AI-агент с API — это боль. Сравните с продвинутыми сценариями из нашей статьи — глубокое разочарование.

Параметр	Gemma4 (27B)
Размер (Q4_K_M)	~9 ГБ
Скорость	60-70 токен/с
Контекст	128K (эффективно ~32K)
Логика (MATH)	71%
Русский язык	Посредственно

GLM-5.1 (32B) — тёмная лошадка из Китая

Zhipu AI (создатели GLM) в 2025 году были в тени Qwen. Но GLM-5.1 — это прорыв. Модель использует гибридную архитектуру Transformer + State Space Model, что даёт ей невероятную эффективность работы с длинным контекстом. 256K контекста — и она реально помнит всё, что было в начале. Я прогнал через неё «Войну и мир» (целиком) и задал вопрос про Пьера Безухова — GLM-5.1 ответил с цитатами, не переспрашивая. Ни Qwen3.5, ни тем более Gemma4 на это не способны.

Русский язык? На удивление хорошо. Лучше, чем у Gemma4, и почти на уровне Qwen3.5. К тому же GLM-5.1 почти не цензурируется — можно обсуждать спорные темы без купюр. Это делает её фаворитом для исследовательских задач и creative writing.

Минусы: модель требовательна к памяти при длинных контекстах (до 28 ГБ на 256K). И скорость: на Q4_K_M около 30-35 токен/с, что ниже, чем у конкурентов. Но если вам нужен «мозг» для работы с документами — это лучший выбор.

Параметр	GLM-5.1 (32B)
Размер (Q4_K_M)	~19 ГБ
Скорость	30-35 токен/с
Контекст	256K (эффективно ~192K)
Логика (MATH)	78%
Русский язык	Хорошо

Minimax-M2.7 (34B) — старый конь борозды не портит

Minimax продолжают полировать свою флагманскую серию. M2.7 — это эволюция M2.1 Pro, которая была лучшей в 2025. Увеличен контекст до 512K (да, вы не ослышались), улучшена логика и добавлена поддержка мультимодальности (изображения на вход). Но самое главное — M2.7 идеально русифицирована. Наверное, потому что команда Minimax плотно работала с русскоязычными бенчмарками.

На русском языке M2.7 обходит Qwen3.5 на 5-7% по точности фактов и стилю. Модель отлично пишет статьи, эссе, код с комментариями на русском. При этом скорость около 38-42 токен/с. Но расплата — размер. 24 ГБ для Q4_K_M — это предел для RTX 4090. Если у вас 16 ГБ — M2.7 влезет только в Q3_K_S с падением качества.

И ещё: M2.7 — единственная из четвёрки, которая дружит с AMD GPU (через ROCm 6.2). Если вы счастливый обладатель RX 7900 XTX — это ваш выбор.

Параметр	Minimax-M2.7 (34B)
Размер (Q4_K_M)	~24 ГБ
Скорость	38-42 токен/с
Контекст	512K (эффективно ~256K)
Логика (MATH)	80%
Русский язык	Превосходно

Сравнительная таблица «четвёрки»

Модель	Размер (Q4)	Скорость	Логика	Русский	Контекст	Особенность
Qwen3.5 32B	~18 ГБ	45 т/с	82%	Отлично	256K/64K	Лучшая логика
Gemma4 27B	~9 ГБ	65 т/с	71%	Средне	128K/32K	Самая быстрая
GLM-5.1 32B	~19 ГБ	33 т/с	78%	Хорошо	256K/192K	Лучший контекст
Minimax-M2.7 34B	~24 ГБ	40 т/с	80%	Превосходно	512K/256K	Русский + AMD

Что в итоге выбрать?

Если вы пишете код и решаете логические задачи — Qwen3.5. Если у вас слабое железо (16 ГБ) и английский интерфейс — Gemma4. Если работаете с большими документами — GLM-5.1. Если вам нужен идеальный русский язык и вы готовы выделить 24 ГБ — Minimax-M2.7.

Но есть универсальный совет: не гонитесь за самой большой моделью. Часто Qwen3.5 14B в Q8 даёт те же 80% качества логики, что и 32B в Q4. Мы подробно разбирали все популярные открытые модели апреля — там есть нюансы квантования. И если вы только начинаете, прочитайте наш гайд по фреймворкам — без llama.cpp или Ollama никуда.

💡

Личный опыт: я месяц сидел на Gemma4, потому что «она самая быстрая». Перешёл на GLM-5.1 — и скорость перестала иметь значение, когда модель начала реально запоминать контекст диалога. Скорость — это комфорт, контекст — это возможность.

Апрель 2026 года подкинул нам жирную дилемму. Раньше было понятно: Llama или Mistral. Сейчас выбор между четырьмя непохожими моделями, каждая из которых сильна в своём. Но это и хорошо — значит, локальные LLM наконец-то стали разнообразными, как настоящий рынок. И да, ни одна из них не заменит ChatGPT на 100% — но если вам нужна приватность, кастомизация и отсутствие цензуры, то «четвёрка апреля» справится с 95% задач. А оставшиеся 5% — это уже вопрос следующего релиза.

Подписаться на канал

Лучшие локальные LLM апреля 2026: Qwen3.5, Gemma4, GLM-5.1 и Minimax-M2.7 — кто вывозит?