Зачем вам эти три модели?
Новый год начался не с хлопушек, а с взрывов. Январь 2026-го принес три релиза, которые не просто улучшают старые показатели — они меняют правила игры. Один стал лучшим в мире по программированию. Второй — первый по-настоящему мультимодальный «все в одном». Третий — догнал Midjourney по качеству, но остался опенсорсом.
И самое главное — все они уже работают на обычном железе. Не в облаке. Не за миллион долларов. У вас дома. Рассказываю, что к чему.
Если вы читали наш прошлый обзор про MiniMax M2, забудьте. M2.1 — это другая вселенная.
MiniMax-M2.1: Тот самый «кодер»
Компания MiniMax выложила в опенсорс модель M2.1 под лицензией Apache 2.0. Это не просто «еще одна модель». Это текущий мировой лидер по бенчмаркам для программирования, включая свежий Multi-SWE-bench.
В чем фокус? Архитектура Mixture of Experts (MoE). Всего параметров — 230 миллиардов. Но на каждый запрос активно работает лишь около 37 миллиардов. Это как иметь под капотом двигатель от гиперкара, но расходовать топливо, как у малолитражки.
Результат: скорость ответа как у модели в 5-6 раз меньше, а качество — на уровне закрытых гигантов вроде GPT-4. Подробный разбор её SOTA-результатов мы делали вот здесь.
1Как запустить MiniMax-M2.1 у себя
Самый простой способ — через Ollama. Команда в терминале:
ollama run minimax-m2.1:7b-q4_K_M
Да, они уже залили квантованные версии. Модель 7B в формате Q4_K_M отлично влезает в 8 ГБ VRAM и работает шустро. Если у вас две карточки, можно попробовать запустить полную 32B версию — гайд есть у нас.
| Что умеет | Где использовать | Минусы |
|---|---|---|
| Пишет и исправляет код на 20+ языках | Автоматизация рутинного программирования, ревью кода | Английский промпты работают лучше китайских |
| Понимает контекст до 128К токенов | Работа с большими codebases, документацией | Требует солидных ресурсов для полной версии |
| Работает как автономный агент | Создание самоисправляющихся скриптов, CI/CD пайплайны | Не лучший выбор для креативных текстов |
LTX-2: Мультимодальность без костылей
Пока все делали «текстовые модели с плагином для картинок», стартап LatentX выпустил LTX-2. Это первая модель, которая с рождения обучена на смеси текста, изображений, аудио и видео. Не отдельные энкодеры, склеенные скотчем, а единая архитектура.
Вы даете ей скриншот интерфейса. Она не просто описывает, что видит. Она пишет код для этого интерфейса. Вы загружаете аудио лекции. Она не только делает транскрипт, но и рисует схемы по услышанному.
LTX-2 понимает связь между модальностями на фундаментальном уровне. Для неё «красный квадрат» в тексте, на картинке и в описании видео — это одно и то же понятие.
2Как заставить LTX-2 работать
Пока официального CLI нет. Но есть Docker-контейнер с демо. Клонируете репозиторий, ставите зависимости и запускаете:
docker-compose up --build
Модель тяжелая (около 40 ГБ в FP16), но они предлагают «ленивую» загрузку — подгружаются только нужные эксперты под вашу задачу. На практике это значит, что для обработки только аудио не нужно грузить видео-эксперты. Гениально и очевидно. Жаль, что до этого никто не додумался.
Qwen-Image 2512: Тот самый «китайский Midjourney»
Alibaba Group не спала. Их новая модель генерации изображений Qwen-Image 2512 по качеству догнала Midjourney v7. В опенсорсе. Без подписок. Без облаков.
Цифра 2512 — это не версия, а разрешение выходного изображения (2512x2512 пикселей). Они убили главную боль open-source генераторов — мыльные лица и кривые руки. Сравните сами с тем, что было раньше.
3Запуск Qwen-Image за 5 минут
Есть готовый Gradio интерфейс. Устанавливаете через pip:
pip install diffusers transformers accelerate
Качаете скрипт с их GitHub, запускаете. Модель весит около 14 ГБ. Работает на карте с 12+ ГБ VRAM. Или на CPU, но тогда ждите минут 5-10 на картинку.
Ключевая фишка — стилизация. Промпт «кошка в стиле китайской акварельной живописи XII века» даст именно то, что вы ожидаете. Не случайную абстракцию.
А что насчет Z80-LM? 40 КБ — это шутка?
Нет. Z80-LM — это эксперимент от группы энтузиастов. Языковая модель, которая умещается в 40 килобайт. Меньше, чем эта статья в HTML.
Она не напишет вам роман. Но выполнит простые команды на естественном языке. Например, «переименуй все .txt файлы в папке, добавив дату». Или «найди в логах все ошибки за сегодня».
Её можно встроить куда угодно. В микроконтроллер. В старый роутер. В умную лампочку. Это proof-of-concept, который показывает: ИИ будущего будет не только в дата-центрах, но и в каждой железке вокруг нас. Подробнее об этой философии мы писали в статье «Мирные модели против LLM».
| Модель | Главная сила | Что нужно для запуска | Кому подойдет |
|---|---|---|---|
| MiniMax-M2.1 | Программирование, исправление багов | 8+ ГБ VRAM, Ollama | Разработчикам, DevOps |
| LTX-2 | Мультимодальность (текст+изо+аудио+видео) | Docker, 16+ ГБ RAM | Исследователям, создателям контента |
| Qwen-Image 2512 | Генерация фотореалистичных изображений | 12+ ГБ VRAM, Diffusers | Дизайнерам, художникам |
Что дальше?
Эти три модели — не просто апдейты. Они задают три разных вектора развития на 2026 год.
- Специализация вместо универсальности. MiniMax-M2.1 не пытается быть лучшей во всем. Она лучшая в коде. И этого достаточно.
- Нативная мультимодальность. LTX-2 показывает, что будущее не за текстовыми моделями с плагинами, а за архитектурами, изначально заточенными под несколько типов данных.
- Качество в опенсорсе. Qwen-Image доказывает: закрытые коммерческие продукты больше не имеют монополии на лучшее качество генерации.
Мой совет на февраль — попробуйте MiniMax-M2.1, если вы хоть как-то связаны с кодом. Она уже доступна в GGUF формате для легкого запуска. Остальные две — для экспериментов и вдохновения. Но именно они, скорее всего, станут основой для следующего поколения инструментов, которые появятся через полгода.
P.S. Если вы думаете, что это пик — посмотрите на анонсы IBM (~100B), Arcee (~400B) и слухи о Gemma 3. Гонка только начинается. Мы уже готовим сравнительный материал по ним. Будет жарко.