Теория активного восприятия TAPe+ML: критика и перспективы архитектуры CV 2026

Год 2026. Мы все ещё режем картинки на патчи и прогоняем через свёртки. Но кто-то решил, что хватит это терпеть

На этой неделе на arXiv всплыла препринт, который мгновенно разлетелся по всем каналам машинного обучения. Авторы из малоизвестного исследовательского института TAPe Labs заявили: все мы последние 15 лет делали компьютерное зрение неправильно. Никаких свёрточных фильтров, никакого разбиения на квадратики для Vision Transformers. Их архитектура, скромно названная TAPe+ML (Theory of Active Perception plus Machine Learning), учится «смотреть» как живой организм – активным сканированием и построением внутренней модели.

Если вы думаете, что это очередная вариация на тему трансформеров, как TOPAS-DSPL, то нет. Здесь даже внимания (attention) в привычном виде нет. И это либо гениально, либо безумно.

Важно: на момент публикации (28 февраля 2026 года) статья не прошла рецензирование, а код и веса моделей не опубликованы. Вся информация основана на препринте и комментариях авторов в Twitter Spaces.

Как это работает? Если коротко – никак (пока)

Представьте, что ваша нейросеть – это не статичный фильтр, а нечто вроде глаза с фовеа. Вместо того чтобы обрабатывать всё изображение сразу, TAPe+ML выбирает точку («точку интереса»), рассматривает её в высоком разрешении, а контекст вокруг – в размытом виде. Затем она решает, куда «переместить взгляд» дальше. Каждый такой шаг обновляет внутреннее латентное состояние модели – своеобразную рабочую память о том, что она уже «увидела».

💡

Авторы называют это «активным восприятием», отсылая к биологическим системам. Никаких захардкоженных inductive biases в виде трансляционной инвариантности (привет, CNN) или глобального контекста (привет, ViT). Модель должна сама научиться, что важно, а что – нет.

Звучит логично. Но есть нюанс: для обучения такой штуки нужна не статика, а последовательность. Авторы используют симуляцию – модель сама генерирует для себя траектории осмотра изображения. И вот здесь начинается магия (или её полное отсутствие). По их заявлению, TAPe+ML достигает точности ResNet-50 на ImageNet, используя в 100 раз меньше помеченных данных. Если это правда – это бомба.

Почему эксперты рвут на себе волосы

Реакция сообщества предсказуемо полярная. Одни кричат о новом AlphaGo для зрения. Другие, вроде Янна ЛеКуна, уже написали в соцсетях, что «это интересная нейробиологическая модель, но к практическому ML имеет мало отношения».

Архитектура	Ключевая идея (2026)	Слабое место
CNN (например, ConvNeXt V3)	Локальные фильтры, иерархия признаков	Плохо с глобальным контекстом, требует много данных
Vision Transformer (ViT-XXL)	Глобальное внимание между патчами	Вычислительная сложность, огромные датасеты
TAPe+ML (заявлено)	Активное последовательное восприятие	Нет публичного кода, сомнительная масштабируемость

Главный камень преткновения – воспроизводимость. Нет кода, нет весов. Есть только красивые графики и утверждения об эффективности. В эпоху, когда даже гиганты вроде Anthropic публикуют детальные разборы внутренностей своих моделей (вспомните вскрытие Claude), такой подход выглядит… старомодно.

«Это пахнет той же историей, что и с Capsule Networks несколько лет назад, – пишет в своём блоге исследователь из FAIR. – Красивая теория, биологическая правдоподобность, нулевое внедрение в индустрию. Пока я не увижу, как эта штука детектирует пешеходов в реальном времени на Tesla FSD v13, это просто мысленный эксперимент».

При чём здесь интерпретируемость? Всё при том

Вот где TAPe+ML может выстрелить, даже если провалится в производительности. Её латентное состояние и траектория «взгляда» – это готовый инструмент для анализа. Не нужно выдумывать T-Scan для визуализации активаций. Модель по своей природе объясняет, на что она смотрела и в каком порядке.

Это мечта для направления mechanistic interpretability. Если архитектура действительно научится осмысленному активному восприятию, заглянуть внутрь будет проще, чем в чёрный ящик обычного трансформера. Можно будет буквально проследить цепочку рассуждений модели: «Увидел колесо -> перевёл взгляд на капот -> идентифицировал как автомобиль».

Любопытно, что подход перекликается с трендом на латентное рассуждение в LLM. Вместо явной Chain-of-Thought модель строит внутреннюю динамическую модель мира. Подробнее об этом – в материале про латентное рассуждение против CoT.

И что теперь делать? Ждать. Или нет

Пока Meta дорабатывает этически взрывоопасный Name Tag, а OpenAI и Google выжимают последние проценты из гигантских ViT, TAPe+ML предлагает радикально иной путь. Он не гарантирует успеха. Скорее всего, эта архитектура окажется слишком медленной для реального времени или не масштабируемой до миллиардов параметров.

Но её главная ценность – не в победе на benchmark'ах. Она в том, что кто-то осмелился задать простой вопрос: «А зачем нам всё это наследие свёрток и патчей, если природа решила задачу зрения совершенно иначе?». Даже если TAPe+ML умрёт в забвении, этот вопрос уже заставит инженеров по всему миру задуматься. А иногда такая встряска полезнее, чем ещё один инкрементальный апдейт библиотеки компьютерного зрения.

Мой прогноз? К концу 2026 года мы увидим как минимум три репликации этой работы, две из которых покажут отрицательные результаты. Но одна, проведённая кем-то вроде Google Brain или глубокими исследователями механической интерпретации, найдёт в этой архитектуре зёрна истины. И тогда начнётся самое интересное – гибрид. Где-то на стыке активного восприятия, латентных пространств и старого доброго внимания. Готовьте попкорн.

Подписаться на канал

TAPe+ML: компьютерное зрение без свёрток и трюков. Прорыв или красивая теория?

Год 2026. Мы все ещё режем картинки на патчи и прогоняем через свёртки. Но кто-то решил, что хватит это терпеть

Как это работает? Если коротко – никак (пока)

Почему эксперты рвут на себе волосы

При чём здесь интерпретируемость? Всё при том

И что теперь делать? Ждать. Или нет

Подписывайтесь на наш канал!