GEAR: новая архитектура синтеза изображений с энд-ту-энд авторегрессией

Почему авторегрессия застряла на пикселях

Авторегрессионные модели в генерации изображений долго плелись в хвосте у диффузионных. Причина? Они жуют пиксели последовательно, слева направо, сверху вниз, как будто читают книгу. Картинка - не текст. Тащить такую последовательность на большие разрешения - верный способ сжечь GPU и получить мыло. Диффузионные модели (Stable Diffusion, DALL-E 3) захватили трон, но у них свои косяки: они медленные на инференсе (нужно 20-50 шагов), галлюцинируют детали и с трудом контролируются.

И вот, в середине 2026 года, авторы из нескольких университетов (CALTECH, MIT, Tsinghua) выкатили препринт, который обещает перетрясти иерархию. GEAR - Guided End-to-End AutoRegression. Звучит как заклинание, но на деле - попытка скрестить авторегрессию с направляющим сигналом и энд-ту-энд обучением. Без код, на пару месяцев раньше, но идея жирная.

Как НЕ надо: старый способ - пиксель за пикселем

В традиционных авторегрессионных генераторах (PixelCNN, ImageGPT) модель предсказывала каждый следующий пиксель на основе всех предыдущих. Это O(N^2) внимания, где N - число пикселей. Для 256x256 это 65 тысяч токенов. Трансформер задыхается. Результат - размытые текстуры и оверхед.

GEAR предлагает другой маршрут. Вместо пикселей - визуальные токены (патчи), как у VQGAN или ViT-VQGAN. Но дальше фишка: они не просто выстраивают их в цепочку, а добавляют guide - conditioning signal, который подсказывает модели, какой глобальный контекст важен. Это напоминает подход из ControlNet или Style Reference, где дополнительный канал направляет генерацию. Только здесь направляющий сигнал встроен прямо в авторегрессионный процесс.

Энд-ту-энд, без компромиссов

Название содержит Guided End-to-End. Что это значит? Обычно авторегрессия учится по частям: квантователь (VQ) отдельно, а потом autoregressive transformer. GEAR объединяет обе стадии в одну сквозную цель. Градиенты текут от лосса реконструкции прямо в квантователь и трансформер. Это тяжело - авторы пишут про специальные трюки со stop-gradient и residual connections, напоминающие архитектуру DeepSeek V4. И да, это действительно меняет поведение: модель учится предсказывать не пиксели, а "смысловые" токены, которые уже компактно кодируют текстуру и форму.

Результаты - без прикрас

На ImageNet 256x256 GEAR набрал FID около 2.5 при генерации всего за 10 шагов (да, авторегрессия - это пошаговый процесс, но токенов всего 1024, а не 65K). Для сравнения: лучшие диффузионки на 50 шагах дают FID 1.8-2.0, но зато у GEAR на порядок меньше вычислений на шаг. Плюс, по классификации на downstream-задачах (классификация, сегментация) GEAR показывает лучшее сохранение семантики - модель не выдумывает лишние объекты. Это прямая выгода для практиков, которые мучаются с падением моделей компьютерного зрения.

Важный нюанс: код не опубликован. Воспроизвести результаты без статьи сложно. Но сама идея Guided End-to-End уже прорабатывается в сообществе - некоторые команды пытаются прикрутить её к существующим фреймворкам. Если вам нужно прямо сейчас стабильно генерировать брендовый контент, лучше приглядеться к проверенным пайплайнам вроде ControlNet + LoRA, как это делают в X5 Tech в статье «Пайплайн стабильной генерации брендового контента».

А что с контролем?

Авторы GEAR утверждают, что guided signal позволяет легко инжектить текст, классы, маски - любые модальности. Они протестировали Class-conditional генерацию и Text-to-image на CC3M. Пока качество текстового понимания уступает диффузионкам (CLIP-score пониже), но динамика улучшения впечатляет. Через пару итераций архитектура может догнать. Особенно если добавить туда Residual Connections, как в DeepSeek V4.

Кстати, о Residual Connections. В GEAR используется что-то вроде глобального skip-connection между encoder и decoder VQ, плюс cross-attention на guided features. Это сильно напоминает структуру GLM-Image - гибридной модели, которая и генерирует, и редактирует. Похоже, тренд на объединение этапов назрел.

Практика: кому это нужно завтра?

Сейчас GEAR - чисто исследовательская работа. Нет ни весов, ни демо. Но идея может быть полезна, если вы:

занимаетесь тренировкой text-to-image с нуля - подход с энд-ту-энд обучением может сократить время экспериментов;
ищете способы уменьшить шаги инференса - как в одношаговых моделях от MIT, но с авторегрессией;
автоматизируете ML-пайплайны - представьте, что обучение такой модели можно закинуть в Codex + HF Skills;
работаете с бренд-контентом - тогда пока рано, но через полгода-год GEAR может стать новой базой для инструментов вроде Volkswagen с SageMaker и Bedrock;
внедряете модели на встраиваемых устройствах - здесь многообещающе: меньше токенов - меньше памяти. Сравните с multi-label классификацией на маломощном железе.

Почему это может быть прорывом (или нет)

Авторегрессия давно нуждалась в свежей крови. GEAR предлагает guided end-to-end подход, который решает главную беду - масштабирование. Если архитектура подтвердится на открытых данных и появится код, она может сдвинуть баланс от диффузионных моделей. Но пока - лишь анонс.

Забавно, что параллельно развиваются идеи о более эффективной дискретизации изображений - как в статье о проектировании камер по Шеннону, где показано, что меньше пикселей может нести больше смысла. GEAR косвенно подтверждает: не надо генерировать каждый пиксель, учись сжимать семантику в токены.

Совет: если хотите попробовать что-то близкое уже сегодня - посмотрите на VQGAN + Transformer (DALL-E-like) или на новую архитектуру Drifting Models. А GEAR поставьте в закладки и ждите код. Возможно, это именно то, что сделает авторегрессию снова великой.

Подписаться на канал

GEAR: Guided End-to-End AutoRegression - как новая архитектура перепридумывает генерацию изображений