Год 2026. Мы все ещё режем картинки на патчи и прогоняем через свёртки. Но кто-то решил, что хватит это терпеть
На этой неделе на arXiv всплыла препринт, который мгновенно разлетелся по всем каналам машинного обучения. Авторы из малоизвестного исследовательского института TAPe Labs заявили: все мы последние 15 лет делали компьютерное зрение неправильно. Никаких свёрточных фильтров, никакого разбиения на квадратики для Vision Transformers. Их архитектура, скромно названная TAPe+ML (Theory of Active Perception plus Machine Learning), учится «смотреть» как живой организм – активным сканированием и построением внутренней модели.
Если вы думаете, что это очередная вариация на тему трансформеров, как TOPAS-DSPL, то нет. Здесь даже внимания (attention) в привычном виде нет. И это либо гениально, либо безумно.
Важно: на момент публикации (28 февраля 2026 года) статья не прошла рецензирование, а код и веса моделей не опубликованы. Вся информация основана на препринте и комментариях авторов в Twitter Spaces.
Как это работает? Если коротко – никак (пока)
Представьте, что ваша нейросеть – это не статичный фильтр, а нечто вроде глаза с фовеа. Вместо того чтобы обрабатывать всё изображение сразу, TAPe+ML выбирает точку («точку интереса»), рассматривает её в высоком разрешении, а контекст вокруг – в размытом виде. Затем она решает, куда «переместить взгляд» дальше. Каждый такой шаг обновляет внутреннее латентное состояние модели – своеобразную рабочую память о том, что она уже «увидела».
Звучит логично. Но есть нюанс: для обучения такой штуки нужна не статика, а последовательность. Авторы используют симуляцию – модель сама генерирует для себя траектории осмотра изображения. И вот здесь начинается магия (или её полное отсутствие). По их заявлению, TAPe+ML достигает точности ResNet-50 на ImageNet, используя в 100 раз меньше помеченных данных. Если это правда – это бомба.
Почему эксперты рвут на себе волосы
Реакция сообщества предсказуемо полярная. Одни кричат о новом AlphaGo для зрения. Другие, вроде Янна ЛеКуна, уже написали в соцсетях, что «это интересная нейробиологическая модель, но к практическому ML имеет мало отношения».
| Архитектура | Ключевая идея (2026) | Слабое место |
|---|---|---|
| CNN (например, ConvNeXt V3) | Локальные фильтры, иерархия признаков | Плохо с глобальным контекстом, требует много данных |
| Vision Transformer (ViT-XXL) | Глобальное внимание между патчами | Вычислительная сложность, огромные датасеты |
| TAPe+ML (заявлено) | Активное последовательное восприятие | Нет публичного кода, сомнительная масштабируемость |
Главный камень преткновения – воспроизводимость. Нет кода, нет весов. Есть только красивые графики и утверждения об эффективности. В эпоху, когда даже гиганты вроде Anthropic публикуют детальные разборы внутренностей своих моделей (вспомните вскрытие Claude), такой подход выглядит… старомодно.
«Это пахнет той же историей, что и с Capsule Networks несколько лет назад, – пишет в своём блоге исследователь из FAIR. – Красивая теория, биологическая правдоподобность, нулевое внедрение в индустрию. Пока я не увижу, как эта штука детектирует пешеходов в реальном времени на Tesla FSD v13, это просто мысленный эксперимент».
При чём здесь интерпретируемость? Всё при том
Вот где TAPe+ML может выстрелить, даже если провалится в производительности. Её латентное состояние и траектория «взгляда» – это готовый инструмент для анализа. Не нужно выдумывать T-Scan для визуализации активаций. Модель по своей природе объясняет, на что она смотрела и в каком порядке.
Это мечта для направления mechanistic interpretability. Если архитектура действительно научится осмысленному активному восприятию, заглянуть внутрь будет проще, чем в чёрный ящик обычного трансформера. Можно будет буквально проследить цепочку рассуждений модели: «Увидел колесо -> перевёл взгляд на капот -> идентифицировал как автомобиль».
Любопытно, что подход перекликается с трендом на латентное рассуждение в LLM. Вместо явной Chain-of-Thought модель строит внутреннюю динамическую модель мира. Подробнее об этом – в материале про латентное рассуждение против CoT.
И что теперь делать? Ждать. Или нет
Пока Meta дорабатывает этически взрывоопасный Name Tag, а OpenAI и Google выжимают последние проценты из гигантских ViT, TAPe+ML предлагает радикально иной путь. Он не гарантирует успеха. Скорее всего, эта архитектура окажется слишком медленной для реального времени или не масштабируемой до миллиардов параметров.
Но её главная ценность – не в победе на benchmark'ах. Она в том, что кто-то осмелился задать простой вопрос: «А зачем нам всё это наследие свёрток и патчей, если природа решила задачу зрения совершенно иначе?». Даже если TAPe+ML умрёт в забвении, этот вопрос уже заставит инженеров по всему миру задуматься. А иногда такая встряска полезнее, чем ещё один инкрементальный апдейт библиотеки компьютерного зрения.
Мой прогноз? К концу 2026 года мы увидим как минимум три репликации этой работы, две из которых покажут отрицательные результаты. Но одна, проведённая кем-то вроде Google Brain или глубокими исследователями механической интерпретации, найдёт в этой архитектуре зёрна истины. И тогда начнётся самое интересное – гибрид. Где-то на стыке активного восприятия, латентных пространств и старого доброго внимания. Готовьте попкорн.