Что такое фреймворк DiNA?

DiNA (Discrete Neural Autoregression) — это фреймворк для создания мультимодальных моделей, которые работают в едином дискретном пространстве токенов для текста, изображений и аудио, используя единый авторегрессионный трансформер.

Чем LongCat-Next отличается от других мультимодальных моделей?

LongCat-Next использует единый токенизатор и модель для всех модальностей, в отличие от гибридных подходов (как Qwen3-VL или LTX-2), которые комбинируют отдельные энкодеры для каждой модальности.

Какие практические применения у LongCat-Next?

Модель способна к смешанной генерации: например, по текстовому описанию создать изображение и сопроводительное аудио, или по аудиозаписи сгенерировать текст и ключевой визуал.

LongCat-Next и DiNA: единое авторегрессионное пространство | Обзор 2026

Зачем DiNA понадобился единый токенизатор для всего

Всё началось с простого вопроса: а что если убрать разделение? Текст, картинки, звук — почему для каждой модальности свой энкодер, свой словарь токенов, своя архитектура? Команда, стоящая за DiNA (Discrete Neural Autoregression), решила, что хватит. Их ответ — фреймворк, который ломает мультимодальность, чтобы построить её заново. Из обломков.

На 31 марта 2026 года DiNA и модель LongCat-Next представляют собой последнюю итерацию этого подхода. Код полностью открыт на GitHub, а статья с подробностями вышла всего несколько месяцев назад.

Суть в том, чтобы всё — буквы, пиксели, звуковые волны — превратить в единую последовательность дискретных токенов. Один поток. Одна модель-трансформер учится предсказывать следующий токен, не важно, обозначает ли он слово, фрагмент изображения или сегмент аудиоспектрограммы. Звучит как безумие? Именно так и работают.

Как DiNA превращает изображения и аудио в дискретные токены

Здесь главный герой — векторно-квантующий вариационный автоэнкодер (VQ-VAE). Но не обычный, а прокачанный. Он сжимает сырые данные изображения или аудио в сетку дискретных кодов. Каждый код — это токен из общего словаря, такого же, как для текста.

💡

Представьте, что у вас есть алфавит из 10 000 символов. Некоторые символы означают буквы, другие — кусочки кошачьих ушей или гитарные аккорды. Модель LongCat-Next учится комбинировать их в осмысленные последовательности.

Для изображений используется dNaViT (Discrete Non-Autoregressive Vision Transformer) — модификация Vision Transformer, которая выдает не непрерывные эмбеддинги, а индексы в кодовой книге. Для аудио — похожий процесс, но примененный к мел-спектрограммам. В итоге, промпт "кошка, играющая на гитаре под дождем" можно представить как смесь текстовых, визуальных и аудиотокенов в одной строке. И модель генерирует ответ в том же гибридном формате.

LongCat-Next в действии: от текста к музыке и обратно

Что умеет конкретная модель LongCat-Next, построенная на DiNA? Практически всё, что связано с конвертацией между модальностями, но без явного разделения на "вход" и "выход".

Текст → Изображение + Описание: Попросите "закат над горами", и получите не только картинку, но и короткий аудиотрек с шумом ветра и текстовое описание сценария.
Аудио → Текст + Ключевой кадр: Загрузите запись речи — модель расшифрует её, выделит ключевые темы и предложит визуальную метафору в виде изображения.
Изображение → Редакторское задание: Дайте фото интерьера, и ИИ предложит текстовый бриф для дизайнера и фоновую музыку, которая подошла бы к атмосфере.

Это не три отдельные модели в одном корпусе. Это одна модель, которая думает на смешанном языке. Если вам интересны другие подходы к работе со звуком, посмотрите наш обзор NEWAVE или практическое руководство по Whisper.cpp.

Чем DiNA не похож на LTX-2, Music Flamingo и Qwen3-VL

Большинство мультимодальных моделей на рынке — это сборные солянки. Возьмем LTX-2 или Qwen3-VL: у них есть отдельный визуальный энкодер (часто CLIP), отдельный языковой модель (например, LLaMA), и они соединяются через специальные слои-адаптеры. Music Flamingo для аудио делает то же самое. Это как собрать оркестр из музыкантов, которые говорят на разных языках и читают с разных партитур.

Подход	Плюсы	Минусы
DiNA (LongCat-Next)	Единое пространство, проще архитектура, прямая генерация смешанного контента	Требует переобучения с нуля для новых модальностей, высокие требования к данным
Гибридные модели (Qwen3-VL, LTX-2)	Можно использовать предобученные компоненты, быстрее адаптировать	Сложная архитектура, задержки на стыковке модальностей, потеря контекста

DiNA убивает эту сложность. Нет отдельных энкодеров. Нет адаптеров. Есть один токенизатор и один трансформер. Это делает модель удивительно цельной, но и более "хрупкой" в обучении. Нужны огромные датасеты, где каждый пример — это триплет (текст, изображение, аудио). Собрать такое — отдельный подвиг.

Кому пригодится эта технология уже сегодня

LongCat-Next и DiNA — не для каждого проекта. Если вам нужно просто добавить описание к картинкам, возьмите LongCat-Image-Edit-Turbo. Если нужен синтез речи — Qwen3 TTS справится быстрее и качественнее.

DiNA — инструмент для тех, кто хочет:

Исследовать фундаментальные ограничения мультимодальности. Академическим лабораториям и аспирантам, которые хотят копать глубже готовых решений.
Строить принципиально новые креативные инструменты. Представьте видеоредактор, где вы правьте не таймлайн, а текстовый сценарий, а картинка и звук подстраиваются сами. Или инструмент для поиска по видеоархивам, который ищет не по тегам, а по атмосфере.
Экспериментировать с кросс-модальной непрерывностью. Для проектов вроде LCO Embedding, где нужен поиск по смыслу, а не по типу файла.

Главный подводный камень — вычислительная стоимость. Обучение LongCat-Next с нуля — занятие для облачных кластеров, а не для домашней видеокарты. Но инференс, особенно в оптимизированных версиях, уже можно запустить локально.

Что дальше? Прогноз от 31.03.2026

DiNA — не конечная станция. Это указатель на дороге. Через год-два мы увидим, как крупные игроки (не называем имён) начнут внедрять похожие единые пространства в свои флагманские модели. Потому что преимущество в архитектурной простоте и цельности представления рано или поздно перевесит сложность сбора данных.

Совет для разработчиков: не спешите переписывать свои пайплайны на DiNA. Скачайте репозиторий, запустите демо LongCat-Next на каком-нибудь простом примере. Почувствуйте, как это — работать с моделью, которая не различает слова и цвета. Это ощущение — понимание того, куда движется ИИ, — важнее любого конкретного применения прямо сейчас. А потом возвращайтесь к своим кроссмодальным поисковым системам или редакторам с новым взглядом. Вполне возможно, следующую breakthrough-идею вы сформулируете именно после такого эксперимента.

Подписаться на канал

LongCat-Next и DiNA: один токенизатор для текста, изображений и аудио