Обзор AI-моделей января 2026: MiniMax-M2.1, LTX-2, Qwen-Image | AiManual
AiManual Logo Ai / Manual.
08 Янв 2026 Новости

Январь 2026: Три модели, которые изменят всё. MiniMax-M2.1, LTX-2 и Qwen-Image

Что нового в AI в январе 2026? Разбираем MiniMax-M2.1 для кода, LTX-2 для мультимодальности и Qwen-Image для изображений. Как их запустить.

Зачем вам эти три модели?

Новый год начался не с хлопушек, а с взрывов. Январь 2026-го принес три релиза, которые не просто улучшают старые показатели — они меняют правила игры. Один стал лучшим в мире по программированию. Второй — первый по-настоящему мультимодальный «все в одном». Третий — догнал Midjourney по качеству, но остался опенсорсом.

И самое главное — все они уже работают на обычном железе. Не в облаке. Не за миллион долларов. У вас дома. Рассказываю, что к чему.

Если вы читали наш прошлый обзор про MiniMax M2, забудьте. M2.1 — это другая вселенная.

MiniMax-M2.1: Тот самый «кодер»

Компания MiniMax выложила в опенсорс модель M2.1 под лицензией Apache 2.0. Это не просто «еще одна модель». Это текущий мировой лидер по бенчмаркам для программирования, включая свежий Multi-SWE-bench.

💡
Multi-SWE-bench — это новый стандарт для оценки способностей ИИ исправлять реальные баги в open-source проектах. Не синтетические задачки, а настоящие issues из GitHub. M2.1 решает 47% из них. Для сравнения, у ближайшего конкурента — 32%.

В чем фокус? Архитектура Mixture of Experts (MoE). Всего параметров — 230 миллиардов. Но на каждый запрос активно работает лишь около 37 миллиардов. Это как иметь под капотом двигатель от гиперкара, но расходовать топливо, как у малолитражки.

Результат: скорость ответа как у модели в 5-6 раз меньше, а качество — на уровне закрытых гигантов вроде GPT-4. Подробный разбор её SOTA-результатов мы делали вот здесь.

1Как запустить MiniMax-M2.1 у себя

Самый простой способ — через Ollama. Команда в терминале:

ollama run minimax-m2.1:7b-q4_K_M

Да, они уже залили квантованные версии. Модель 7B в формате Q4_K_M отлично влезает в 8 ГБ VRAM и работает шустро. Если у вас две карточки, можно попробовать запустить полную 32B версию — гайд есть у нас.

Что умеетГде использоватьМинусы
Пишет и исправляет код на 20+ языкахАвтоматизация рутинного программирования, ревью кодаАнглийский промпты работают лучше китайских
Понимает контекст до 128К токеновРабота с большими codebases, документациейТребует солидных ресурсов для полной версии
Работает как автономный агентСоздание самоисправляющихся скриптов, CI/CD пайплайныНе лучший выбор для креативных текстов

LTX-2: Мультимодальность без костылей

Пока все делали «текстовые модели с плагином для картинок», стартап LatentX выпустил LTX-2. Это первая модель, которая с рождения обучена на смеси текста, изображений, аудио и видео. Не отдельные энкодеры, склеенные скотчем, а единая архитектура.

Вы даете ей скриншот интерфейса. Она не просто описывает, что видит. Она пишет код для этого интерфейса. Вы загружаете аудио лекции. Она не только делает транскрипт, но и рисует схемы по услышанному.

LTX-2 понимает связь между модальностями на фундаментальном уровне. Для неё «красный квадрат» в тексте, на картинке и в описании видео — это одно и то же понятие.

2Как заставить LTX-2 работать

Пока официального CLI нет. Но есть Docker-контейнер с демо. Клонируете репозиторий, ставите зависимости и запускаете:

docker-compose up --build

Модель тяжелая (около 40 ГБ в FP16), но они предлагают «ленивую» загрузку — подгружаются только нужные эксперты под вашу задачу. На практике это значит, что для обработки только аудио не нужно грузить видео-эксперты. Гениально и очевидно. Жаль, что до этого никто не додумался.

Qwen-Image 2512: Тот самый «китайский Midjourney»

Alibaba Group не спала. Их новая модель генерации изображений Qwen-Image 2512 по качеству догнала Midjourney v7. В опенсорсе. Без подписок. Без облаков.

Цифра 2512 — это не версия, а разрешение выходного изображения (2512x2512 пикселей). Они убили главную боль open-source генераторов — мыльные лица и кривые руки. Сравните сами с тем, что было раньше.

💡
Подробный разбор возможностей и сравнение с конкурентами мы уже публиковали в обзоре Qwen-Image 2512: Китайский open-source монстр.

3Запуск Qwen-Image за 5 минут

Есть готовый Gradio интерфейс. Устанавливаете через pip:

pip install diffusers transformers accelerate

Качаете скрипт с их GitHub, запускаете. Модель весит около 14 ГБ. Работает на карте с 12+ ГБ VRAM. Или на CPU, но тогда ждите минут 5-10 на картинку.

Ключевая фишка — стилизация. Промпт «кошка в стиле китайской акварельной живописи XII века» даст именно то, что вы ожидаете. Не случайную абстракцию.

А что насчет Z80-LM? 40 КБ — это шутка?

Нет. Z80-LM — это эксперимент от группы энтузиастов. Языковая модель, которая умещается в 40 килобайт. Меньше, чем эта статья в HTML.

Она не напишет вам роман. Но выполнит простые команды на естественном языке. Например, «переименуй все .txt файлы в папке, добавив дату». Или «найди в логах все ошибки за сегодня».

Её можно встроить куда угодно. В микроконтроллер. В старый роутер. В умную лампочку. Это proof-of-concept, который показывает: ИИ будущего будет не только в дата-центрах, но и в каждой железке вокруг нас. Подробнее об этой философии мы писали в статье «Мирные модели против LLM».

МодельГлавная силаЧто нужно для запускаКому подойдет
MiniMax-M2.1Программирование, исправление багов8+ ГБ VRAM, OllamaРазработчикам, DevOps
LTX-2Мультимодальность (текст+изо+аудио+видео)Docker, 16+ ГБ RAMИсследователям, создателям контента
Qwen-Image 2512Генерация фотореалистичных изображений12+ ГБ VRAM, DiffusersДизайнерам, художникам

Что дальше?

Эти три модели — не просто апдейты. Они задают три разных вектора развития на 2026 год.

  1. Специализация вместо универсальности. MiniMax-M2.1 не пытается быть лучшей во всем. Она лучшая в коде. И этого достаточно.
  2. Нативная мультимодальность. LTX-2 показывает, что будущее не за текстовыми моделями с плагинами, а за архитектурами, изначально заточенными под несколько типов данных.
  3. Качество в опенсорсе. Qwen-Image доказывает: закрытые коммерческие продукты больше не имеют монополии на лучшее качество генерации.

Мой совет на февраль — попробуйте MiniMax-M2.1, если вы хоть как-то связаны с кодом. Она уже доступна в GGUF формате для легкого запуска. Остальные две — для экспериментов и вдохновения. Но именно они, скорее всего, станут основой для следующего поколения инструментов, которые появятся через полгода.

P.S. Если вы думаете, что это пик — посмотрите на анонсы IBM (~100B), Arcee (~400B) и слухи о Gemma 3. Гонка только начинается. Мы уже готовим сравнительный материал по ним. Будет жарко.