Трансформеры устарели? Не совсем, но TAPE показывает зубы
Трансформеры захватили мир. Видение, язык, даже звук. Они стали де-факто стандартом, как некогда свертки. Но стандарт – это не всегда хорошо. Это часто означает монокультуру, застой и тонну вычислительных затрат. В 2026 году на сцену вышла TAPE (Temporally-Aware Active Perception Engine). И она не просит разрешения.
Новое исследование, опубликованное буквально на прошлой неделе, обкатало TAPE на классическом датасете COCO-2026 (да, они его обновили). Результаты заставили поднять брови даже у закаленных скептиков из FAIR. Мало того, что модель обогнала ViT-G/14 на семантической сегментации. Она сделала это, потребляя на 40% меньше памяти во время инференса.
Важный нюанс: Не путайте TAPE с более ранней работой TAPe+ML. Тот проект был красивой теорией о зрении без сверток. TAPE – это уже готовая, отточенная инженерная реализация, где главный трюк – активное восприятие через временные эмбеддинги.
Из чего сделан этот новый движок? Отказ от статики
Если трансформер смотрит на все изображение сразу (и тратит квадратичную память на attention), TAPE работает иначе. Он имитирует активное зрение живого существа. Вместо одного гигантского "взгляда" – серия быстрых, последовательных фиксаций на ключевых патчах.
Архитектурно это выглядит так:
- Энкодер сцены: Быстро кодирует все изображение в low-resolution карту значимости.
- Агент активного восприятия: Эта штука решает, куда "смотреть" дальше. Не случайно, а на основе предыдущих фиксаций и текущего контекста. (Звучит как reinforcement learning, но там все проще и дифференцируемо).
- TAPE-элементы (Temporal Aggregation & Projection Elements): Вот сердце системы. Они обрабатывают выбранные патчи, накапливая временной контекст. Это не просто эмбеддинги – это эмбеддинги с памятью о том, что уже "увидели".
Цифры не врут. Таблица результатов на COCO-2026
Авторы сравнили TAPE-L (Large) с ViT-L/16 и новой Mamba-2, адаптированной для зрения. Метрика – mIoU для семантической сегментации.
| Архитектура | mIoU (%) | Пиковая память (ГБ) | Время инференса (мс) |
|---|---|---|---|
| ViT-L/16 (базовый) | 52.1 | 8.7 | 142 |
| TAPE-L (наша модель) | 54.8 | 5.2 | 121 |
| Mamba-2-Vision | 53.3 | 6.1 | 98 |
+2.7 пункта к mIoU – это серьезно. Особенно на насыщенном COCO. Но главное – провал в потреблении памяти. TAPE не строит глобальную матрицу внимания. Он ее просто не вычисляет. Вместо этого – локальные взаимодействия в последовательности фиксаций.
Где TAPE спотыкается? (Спойлер: видео и атаки)
Все выглядит идеально? Как бы не так. У активного восприятия есть ахиллесова пята – временная согласованность. На задачах видеоанализа, где нужна плавность во времени, TAPE иногда "дергается". Его фиксации могут скакать между объектами слишком резко, что ломает временную когерентность.
И еще robustness. Предварительные тесты показывают, что устойчивость к атакам у TAPE пока ниже, чем у классических плотных трансформеров. Атаковать можно сам агент, который решает, куда смотреть. Сбил его с толку – и вся система слепнет.
Контекст: TAPE – не единственный бунтарь. Параллельно развиваются Differential Transformer V2 и бикамеральные архитектуры вроде TOPAS-DSPL. Экосистема ищет пути избавиться от квадратичной сложности. TAPE предлагает радикальный – поведенческий – путь.
Что делать с этим сейчас? Прогноз на 2027
Брать и переписывать все свои модели? Нет, это глупо. TAPE – нишевая, но убийственная технология для конкретных сценариев:
- Мобильное и edge-зрение: Там, где каждый мегабайт памяти на счету. Активное восприятие экономит ресурсы.
- Интерактивные системы: Где AI-агент должен последовательно изучать сцену, как в Tapes.dev. TAPE идеально ложится на эту парадигму.
- Предобработка для больших моделей: Использовать TAPE как "внимательный фильтр", который выбирает только релевантные регионы для тяжелого трансформера.
Мой прогноз? К середине 2027 года мы увидим гибриды. Трансформерная основа, но с TAPE-подобным модулем активной выборки на входе. Это снизит затраты в 2-3 раза без потери качества. А чистые трансформеры останутся для задач, где нужна абсолютная, тотальная обработка всего контекста. Например, для генерации видео как в LTX-2.
И да, готовьтесь к новым инструментам для визуализации. Потому что смотреть на веса внимания в трансформере – это прошлый век. Теперь надо будет визуализировать траекторию взгляда AI-агента. Это сложнее, но в разы интереснее.