Май 2026 года войдет в историю open-source как месяц, когда количество релизов переросло в качество. Больше не надо выбирать между размером модели и ее возможностями — теперь можно запустить локально почти все, кроме разве что самых монструозных флагманов. Давайте разберемся, кто что выпустил и кому что реально пригодится.
Главный тренд мая — multimodal не только для гигантов. LLaMA 4 стала первой native multimodal-моделью от Meta, которую можно запустить на домашнем GPU. Это не просто текст — она понимает картинки, таблицы и даже базовые схемы.
LLaMA 4: осторожно, двери открываются
Meta выпустила LLaMA 4 в начале мая. В отличие от предыдущих версий, четверка доступна сразу в двух размерах: 8B (для тех, у кого RTX 3090) и 70B (для кластеров энтузиастов). Главное нововведение — нативное понимание изображений. Больше не надо тащить отдельную визуальную модель. Запустил llama.cpp и работаешь с PDF, фото, блок-схемами. На бенчмарках LLaMA 4 обошла Mistral Large 2.5 по задачам визуального QA и почти догнала GPT-5 по логике. Но есть нюанс: 8B версия не справляется со сложными английскими текстами с иронией — тут лучше поставить Qwen 3.5.
Mistral Large 3: длинный контекст как стандарт
Французы не отстают. Mistral Large 3 вышла с контекстом в 256K токенов — это на 30% больше, чем у DeepSeek V4. При этом модель требует всего 24 GB VRAM в квантизованном 4-битном формате. Идеальный выбор для обработки монографий, юридических документов и даже целой кодовой базы. Однако на коротких запросах Mistral Large 3 иногда перемудрит: выдаст пять страниц объяснения, когда нужен был ответ в три строки. Как показал тест Food Truck Benchmark, длинный контекст не спас модель от провала в бизнес-симуляции — там выиграли более компактные модели с четкой цепочкой рассуждений.
Qwen 3.5: кодинг на стероидах
Alibaba не спит. Qwen 3.5 (всего 14B) на бенчмарке HumanEval обогнала LLaMA 4 70B и даже GPT-5.3-Codex (о котором мы писали в февральском обзоре). Разработчики, работающие с Python, Java и Go, теперь могут запустить локального ассистента на 8 GB карте. Qwen 3.5 также научилась исправлять свой код на лету — если модель видит ошибку, она предлагает фикс без дополнительного запроса. Звучит круто, но на практике иногда исправляет то, что трогать не надо. Советую всегда проверять сгенерированные патчи.
DeepSeek V4.1: острый апдейт
DeepSeek в мае выпустила не новый флагман, а обновление V4.1 — оно улучшило математические рассуждения и уменьшило «галлюцинации» при цитировании дат. Это особенно важно для профессионалов, которые хотят использовать модель в научной работе. V4.1 доступна в размерах 67B и 32B (MoE). Мы уже говорили о планах DeepSeek на новый флагман — кажется, V5 откладывается до осени, а пока патчи дают прирост в 5-7% по ключевым метрикам.
Архитектурные сюрпризы: Arcee AI и Design Arena
Маленькая компания Arcee AI в мае представила метод слияния моделей, который позволяет объединять LLaMA 4 и Qwen 3.5 в одну сборку без дополнительного обучения. Как Arcee AI переписывает правила open-source гонки — теперь можно взять лучшее от разных разработчиков. А модель Design Arena, вышедшая в апреле, в мае получила апдейт, который поднял ее на первое место в рейтинге генерации веб-интерфейсов. Подробнее про Design Arena — эта модель меняет рынок UI/UX.
Китайский трек: Kimi K3.2 и MiniMax M3
Moonshot AI (Kimi) обновилась до K3.2 — модель фокусируется на извлечении фактов и работе с большими таблицами. MiniMax представила M3, которая специализируется на диалогах. Гонка китайских LLM продолжается: если ранее лидировал DeepSeek V4, то теперь Kimi перетягивает одеяло в задачах анализа данных. MiniMax M3, кстати, можно запустить локально в версии 8B — она отлично держит диалог, но для ролевых игр лучше не брать (помните историю с исчезновением M2-her?).
| Модель | Параметры | VRAM (4-bit) | Кому подходит |
|---|---|---|---|
| LLaMA 4 8B | 8B | ~6 GB | Универсальная multimodal, работа с изображениями |
| Mistral Large 3 | 123B | ~24 GB | Анализ больших документов, юридические тексты |
| Qwen 3.5 14B | 14B | ~10 GB | Программирование, генерация кода |
| DeepSeek V4.1 32B MoE | 32B (active 8B) | ~12 GB | Научная работа, точные ответы с цитированием |
Тренд на специализацию вместо гигантизма
Май подтвердил прогноз о конце гонки параметров. Никто не гонится за триллионами — все оптимизируют под конкретные задачи. Даже гигантские модели вроде Opus 4.6 не выходят в open-source, а локальные LLM становятся инструментами, а не игрушками. Как мы писали в обзоре трендов 2026 года, рынок входит в «долину разочарования», но именно открытые модели дают второе дыхание.
Не гонитесь за последней версией. Часто модель месячной давности лучше подходит под вашу задачу: LLaMA 4 не победит Qwen 3.5 в кодинге, а Mistral Large 3 перегружает короткие запросы. Выбирайте не по дате релиза, а по бенчмаркам, которые релевантны вашей работе. И не забывайте про квантование — 8B модель в 2-битном формате может оказаться бессмысленной, а 70B в 8-бит не влезет в вашу видеокарту. Тестируйте, меряйте, и майские новинки вас не разочаруют.